جمنای

Project Astra — دستیار هوشمند آینده

Project Astra — دستیار هوشمند آینده — راهنمای فارسی از مجموعهٔ «جمنای» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۴ دقیقه مطالعه
تصویر مقالهٔ Project Astra — دستیار هوشمند آینده

در Google I/O 2024، گوگل یه دمو پخش کرد که خیلی‌ها رو متعجب کرد: یه نفر با موبایلش دوربین رو به یه نقاشی می‌گیره و می‌پرسه «این چه سبکیه؟»، بعد دوربین رو به لپ‌تاپش می‌چرخونه و می‌پرسه «باگ این کد کجاست؟»، بعد می‌پرسه «چیزی رو که چند دقیقه پیش بهت دادم یادته؟» — و AI جواب می‌ده. این Project Astra بود.

Project Astra چیه؟

Project Astra یه تحقیق و پروتوتایپ گوگل دیپ‌مایند است برای ساختن یه «universal AI agent» — دستیاری که می‌تونه:

  • دنیای اطراف رو از طریق دوربین ببینه و درک کنه
  • صدا رو بشنوه و با تأخیر بسیار کم جواب بده (near-realtime)
  • چیزهایی که چند دقیقه پیش دیده رو به خاطر بیاره (spatial memory)
  • بین بینایی، صدا، و متن به شکل یکپارچه کار کنه

به زبان ساده‌تر: Astra آزمایشگاهیه که گوگل داره تست می‌کنه «AI دستیار چشم و گوش‌دار چه حسی داره؟» — و خروجی‌های این آزمایشگاه به تدریج وارد محصولات عمومی می‌شن.

چه زمانی معرفی شد و الان کجاست؟

مه ۲۰۲۴ (Google I/O 2024): دمو اولیه. دو نفر از تیم گوگل با یه پروتوتایپ روی موبایل نشون دادن که Astra می‌تونه environment اطراف رو ببینه، context مکالمه رو نگه داره، و با تأخیر کم جواب بده.

دسامبر ۲۰۲۴: گوگل اعلام کرد قابلیت‌های Project Astra رو در Gemini Live (برای کاربران Gemini Advanced) و Google Lens ادغام کرده. یعنی دیگه فقط یه دمو نبود — بخشی از محصول شد.

اوایل ۲۰۲۵: Project Astra در Google Search Labs در دسترس عده‌ای از کاربران آمریکایی قرار گرفت. کاربران می‌تونستند از Project Astra به عنوان یه overlay روی صفحه استفاده کنند — چیزی شبیه به اینکه AI می‌تونه هر چیزی که روی صفحه‌ات هست رو ببینه و دربارش صحبت کنه.

وضعیت فعلی (۲۰۲۵): Astra به عنوان «research preview» محدود هنوز در حال توسعه است، ولی چند feature اصلیش وارد Gemini Live و Google Lens شده.

قابلیت‌های کلیدی که Astra آزمایش می‌کنه

حافظهٔ فضایی (Spatial Memory)

Astra می‌تونه «یادش باشه» که چند دقیقه پیش چه چیزی رو دیده. مثلاً: «عینکم رو کجا گذاشتم؟» — اگه قبلاً با Astra در اتاق راه رفتی، می‌تونه بگه «کنار کیبورد گذاشتیش.»

این با session memory معمولی LLM‌ها فرق داره. اینجا context فضاییه، نه فقط متنی.

Streaming audio/video با تأخیر کم

مشکل اصلی مدل‌های زبانی برای استفادهٔ صوتی، تأخیر بوده — مدل باید کل جمله رو بشنوه، پردازش کنه، و بعد جواب بده. Astra داره این pipeline رو بهینه می‌کنه تا مکالمه طبیعی‌تر بشه.

تشخیص محیط

نه فقط «چه چیزی در این عکس است» (که Google Lens مدت‌هاست این کار رو می‌کنه)، بلکه فهم رابطهٔ اشیاء، تشخیص اینکه «آیا این وسیله درست کار می‌کنه»، یا «اگه اینجا جور دیگه‌ای بچینی بهتر می‌شه».

فرق Astra با سایر دستیارهای صوتی-تصویری

در مقابل GPT-4o Vision + Voice

OpenAI هم در مه ۲۰۲۴ قابلیت‌های مشابهی رو در GPT-4o نشون داد — پردازش صوتی realtime و vision. فرق اصلی Astra اینه که روی حافظهٔ محیطی و پیوستگی spatial تمرکز بیشتری داره. GPT-4o به session‌های مجزا کار می‌کنه، در حالی که Astra داره مدل‌هایی می‌سازه که محیط فیزیکی رو در طول زمان به خاطر می‌آرن.

در مقابل Apple Intelligence

اپل با Siri و on-device AI تمرکز روی حریم خصوصی داره. Astra cloud-based تره و تأخیر کمتر رو به قیمت پردازش ابری انجام می‌ده.

محدودیت‌های واقعی

چند تا چیز که در دموها ندیدی ولی باید بدونی:

حافظهٔ محدود در زمان: در دموهای عمومی، spatial memory Astra چند دقیقه تا یه ساعته. حافظهٔ بلندمدت چندهفته‌ای که در تصویر نهایی Astra وجود داره، هنوز در محصول نیست.

دسترسی برای ایران: Project Astra به عنوان محصول مستقل در ایران در دسترس نیست. بخشی از قابلیت‌هاش که وارد Gemini شده هم نیاز به VPN و حساب غیر ایرانی دارن. Gemini Advanced که کامل‌ترین دسترسی رو می‌ده، به کارت اعتباری بین‌المللی نیاز داره.

دقت در محیط‌های پیچیده: در دموهای کنترل‌شده عالی کار می‌کنه، ولی در محیط‌های شلوغ با نور بد یا صدای پس‌زمینه، دقت پایین می‌آد.

زبان فارسی: پردازش فارسی در Gemini پیشرفت کرده، ولی وقتی با vision ترکیب می‌شه («این متن فارسی روی تابلو رو بخون و ترجمه کن»)، هنوز خطاهای بیشتری نسبت به انگلیسی داره.

چرا Astra مهمه؟ — یه نگاه از زاویهٔ دیگه

وقتی گوگل Astra رو معرفی کرد، بعضی‌ها گفتن «این فقط یه دموی fancy‌ه». ولی اگه به تاریخچه نگاه کنیم، دموهای گوگل در I/O معمولاً ۱۲ تا ۲۴ ماه بعد وارد محصولات اصلی می‌شن — و Astra هم همین مسیر رو طی کرد.

مفهوم مهم‌تری که Astra نشون می‌ده اینه: AI از «چت‌بات متنی» داره به «agent با درک محیط» تبدیل می‌شه. این یه shift پارادایمیه. دستیاری که فقط متن پردازش می‌کنه با دستیاری که «می‌بینه» و «می‌شنوه» و «به خاطر می‌آره» تجربهٔ بسیار متفاوتی می‌ده.

برای کسی که داره روی AI ایرانی فکر می‌کنه، این مهمه: حافظه و پیوستگی چیزهایی هستن که تفاوت بین یه ابزار و یه همراه می‌سازن.

وضعیت دسترسی برای کاربر ایرانی

اگه می‌خوای الان با قابلیت‌های نزدیک به Astra کار کنی:

  • Gemini Live با کارت بین‌المللی: بخشی از Astra وارد Gemini Live شده و با اشتراک Gemini Advanced قابل دسترسه
  • Google Lens: قابلیت‌های vision پایه‌تر Astra در Google Lens موجوده و بدون VPN هم کار می‌کنه
  • GPT-4o vision: رقیب اصلی Astra که از طریق سرویس‌های واسط برای ایران قابل استفاده‌ست

همچنین بخوان

#جمنای

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «جمنای»