چت جی پی تی

Voice Mode و Advanced Voice در ChatGPT

Voice Mode و Advanced Voice در ChatGPT — راهنمای فارسی از مجموعهٔ «چت جی پی تی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ Voice Mode و Advanced Voice در ChatGPT

وقتی اولین بار Voice Mode رو روی ChatGPT امتحان می‌کنی، حس می‌کنی یه قدم بزرگ از دنیای تایپ کردن فاصله گرفتی. ولی بین نسخهٔ پایه (Voice Mode) و نسخهٔ پیشرفته (Advanced Voice Mode) تفاوت‌هایی هست که می‌خوام صادقانه توضیح بدم — چه کار می‌کنه، چه کار نمی‌کنه، و برای کاربر فارسی‌زبان چقدر کاربردیه.

Voice Mode پایه در مقابل Advanced Voice Mode

ChatGPT از همون ابتدا یه حالت صوتی ساده داشت: میکروفون رو روشن می‌کردی، حرفت تبدیل به متن می‌شد، مدل جواب می‌داد، و یه voice به متن صدا می‌داد. این پایپ‌لاین سه‌مرحله‌ای بود — speech-to-text، LLM، text-to-speech.

Advanced Voice Mode (AVM) که در سپتامبر ۲۰۲۴ برای عموم عرضه شد، متفاوته: صدای تو مستقیم وارد مدل می‌شه، بدون اینکه اول به متن تبدیل بشه. نتیجه؟ لحن، مکث، هیجان — همه حفظ می‌شن. مدل می‌تونه تشخیص بده که داری با تردید حرف می‌زنی یا مطمئن هستی.

قابلیت‌های واقعی Advanced Voice Mode

پردازش بلادرنگ: نیازی نیست صبر کنی تا حرفت تموم بشه. AVM می‌تونه وسط جملهٔ تو شروع به پردازش کنه — مثل مکالمهٔ واقعی.

۹ صدای مختلف: می‌تونی از بین نه صدا با لحن‌ها و شخصیت‌های مختلف انتخاب کنی.

دیدن همزمان: روی موبایل، اگه روی آیکون دوربین بزنی داخل محیط صوتی، ChatGPT دوربین گوشیت رو می‌بینه و می‌تونی همزمان از یه چیز فیزیکی بپرسی.

پشتیبانی از زبان‌های زیاد: AVM با ده‌ها زبان کار می‌کنه. برای فارسی هم کار می‌کنه — نه ایده‌آل، ولی قابل قبول.

تصحیح تلفظ: می‌شه ازش خواست تلفظ کلمات انگلیسی رو تمرین کنی؛ این یکی از کاربردهای جالبشه.

محدودیت‌های مهم

اینجاست که باید صادق باشم:

حافظه در Voice Mode کار نمی‌کنه: اگه ChatGPT حافظه داشته باشه (Memory feature)، اون اطلاعات داخل مکالمهٔ صوتی قابل دسترس نیست. هر session صوتی از صفر شروع می‌کنه.

دسترسی به چت‌های قبلی ندارد: نمی‌تونی بگی «اون مکالمه‌ای که دیروز داشتیم رو ادامه بده» — این در Voice Mode ممکن نیست.

جستجوی اینترنت ندارد: در حالت صوتی، ChatGPT به اینترنت وصل نمی‌شه.

محیط پر سروصدا مشکل‌سازه: AVM حساسه. سروصدای پس‌زمینه، سرفه، یا مکث طولانی ممکنه به‌عنوان پایان جمله تفسیر بشه. هدفون با میکروفون خوب کمک زیادی می‌کنه.

مک‌اواس: از ژانویه ۲۰۲۶، صدا از اپ macOS حذف شد. روی chatgpt.com، iOS، اندروید، و ویندوز همچنان موجوده.

سقف استفاده روزانه

Advanced Voice رایگان نیست — حداقل نه بدون محدودیت:

  • کاربر رایگان: چند دقیقه پیش‌نمایش در روز
  • Plus (۲۰ دلار/ماه): چند ساعت در روز
  • Pro (۲۰۰ دلار/ماه): تقریباً نامحدود

برای کاربر ایرانی

اینجا یه چالش عملی داریم: ChatGPT از ایران بلاک‌ه. VPN لازمه، و کیفیت اتصال مستقیم روی تجربهٔ صوتی بلادرنگ تأثیر می‌ذاره. لگ شبکه در مکالمهٔ صوتی خیلی محسوس‌تره از متن.

علاوه بر این، هرچقدر هم که AVM برای فارسی بهتر شده، هنوز با لهجه‌ها و اصطلاحات بومی کنار نمیاد. اگه فارسی خوزستانی یا ترکی مخلوط با فارسی حرف بزنی، نتیجه ضعیف‌تره.

مقایسه با Gemini Live

Gemini Live — محصول مشابه گوگل — یه مزیت داره: در بعضی بازارها از اندروید بدون VPN دسترسی داره. روی کیفیت صدا و طبیعی بودن مکالمه، AVM هنوز بهتره — ولی دسترسی‌پذیری Gemini Live برای کاربر ایرانی یه امتیاز واقعیه. مقاله Gemini Live چیست این مقایسه رو عمیق‌تر بررسی می‌کنه.

جمع‌بندی

Advanced Voice Mode یه تجربهٔ واقعاً متفاوت از تایپ کردنه — برای تمرین زبان، دیکته، تفکر بلندمدت (thinking out loud)، و مواقعی که دستت آزاد نیست. ولی اگه انتظار داری یه دستیار صوتی باشه که تو رو بشناسه، تاریخچهٔ مکالمات رو حفظ کنه، و بین جلسه‌ها context داشته باشه — این انتظار از AVM در حال حاضر برآورده نمی‌شه.

همچنین بخوان

#چت جی پی تی

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «چت جی پی تی»