Project Astra — دستیار هوشمند آینده
Project Astra — دستیار هوشمند آینده — راهنمای فارسی از مجموعهٔ «جمنای» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

در Google I/O 2024، گوگل یه دمو پخش کرد که خیلیها رو متعجب کرد: یه نفر با موبایلش دوربین رو به یه نقاشی میگیره و میپرسه «این چه سبکیه؟»، بعد دوربین رو به لپتاپش میچرخونه و میپرسه «باگ این کد کجاست؟»، بعد میپرسه «چیزی رو که چند دقیقه پیش بهت دادم یادته؟» — و AI جواب میده. این Project Astra بود.
Project Astra چیه؟
Project Astra یه تحقیق و پروتوتایپ گوگل دیپمایند است برای ساختن یه «universal AI agent» — دستیاری که میتونه:
- دنیای اطراف رو از طریق دوربین ببینه و درک کنه
- صدا رو بشنوه و با تأخیر بسیار کم جواب بده (near-realtime)
- چیزهایی که چند دقیقه پیش دیده رو به خاطر بیاره (spatial memory)
- بین بینایی، صدا، و متن به شکل یکپارچه کار کنه
به زبان سادهتر: Astra آزمایشگاهیه که گوگل داره تست میکنه «AI دستیار چشم و گوشدار چه حسی داره؟» — و خروجیهای این آزمایشگاه به تدریج وارد محصولات عمومی میشن.
چه زمانی معرفی شد و الان کجاست؟
مه ۲۰۲۴ (Google I/O 2024): دمو اولیه. دو نفر از تیم گوگل با یه پروتوتایپ روی موبایل نشون دادن که Astra میتونه environment اطراف رو ببینه، context مکالمه رو نگه داره، و با تأخیر کم جواب بده.
دسامبر ۲۰۲۴: گوگل اعلام کرد قابلیتهای Project Astra رو در Gemini Live (برای کاربران Gemini Advanced) و Google Lens ادغام کرده. یعنی دیگه فقط یه دمو نبود — بخشی از محصول شد.
اوایل ۲۰۲۵: Project Astra در Google Search Labs در دسترس عدهای از کاربران آمریکایی قرار گرفت. کاربران میتونستند از Project Astra به عنوان یه overlay روی صفحه استفاده کنند — چیزی شبیه به اینکه AI میتونه هر چیزی که روی صفحهات هست رو ببینه و دربارش صحبت کنه.
وضعیت فعلی (۲۰۲۵): Astra به عنوان «research preview» محدود هنوز در حال توسعه است، ولی چند feature اصلیش وارد Gemini Live و Google Lens شده.
قابلیتهای کلیدی که Astra آزمایش میکنه
حافظهٔ فضایی (Spatial Memory)
Astra میتونه «یادش باشه» که چند دقیقه پیش چه چیزی رو دیده. مثلاً: «عینکم رو کجا گذاشتم؟» — اگه قبلاً با Astra در اتاق راه رفتی، میتونه بگه «کنار کیبورد گذاشتیش.»
این با session memory معمولی LLMها فرق داره. اینجا context فضاییه، نه فقط متنی.
Streaming audio/video با تأخیر کم
مشکل اصلی مدلهای زبانی برای استفادهٔ صوتی، تأخیر بوده — مدل باید کل جمله رو بشنوه، پردازش کنه، و بعد جواب بده. Astra داره این pipeline رو بهینه میکنه تا مکالمه طبیعیتر بشه.
تشخیص محیط
نه فقط «چه چیزی در این عکس است» (که Google Lens مدتهاست این کار رو میکنه)، بلکه فهم رابطهٔ اشیاء، تشخیص اینکه «آیا این وسیله درست کار میکنه»، یا «اگه اینجا جور دیگهای بچینی بهتر میشه».
فرق Astra با سایر دستیارهای صوتی-تصویری
در مقابل GPT-4o Vision + Voice
OpenAI هم در مه ۲۰۲۴ قابلیتهای مشابهی رو در GPT-4o نشون داد — پردازش صوتی realtime و vision. فرق اصلی Astra اینه که روی حافظهٔ محیطی و پیوستگی spatial تمرکز بیشتری داره. GPT-4o به sessionهای مجزا کار میکنه، در حالی که Astra داره مدلهایی میسازه که محیط فیزیکی رو در طول زمان به خاطر میآرن.
در مقابل Apple Intelligence
اپل با Siri و on-device AI تمرکز روی حریم خصوصی داره. Astra cloud-based تره و تأخیر کمتر رو به قیمت پردازش ابری انجام میده.
محدودیتهای واقعی
چند تا چیز که در دموها ندیدی ولی باید بدونی:
حافظهٔ محدود در زمان: در دموهای عمومی، spatial memory Astra چند دقیقه تا یه ساعته. حافظهٔ بلندمدت چندهفتهای که در تصویر نهایی Astra وجود داره، هنوز در محصول نیست.
دسترسی برای ایران: Project Astra به عنوان محصول مستقل در ایران در دسترس نیست. بخشی از قابلیتهاش که وارد Gemini شده هم نیاز به VPN و حساب غیر ایرانی دارن. Gemini Advanced که کاملترین دسترسی رو میده، به کارت اعتباری بینالمللی نیاز داره.
دقت در محیطهای پیچیده: در دموهای کنترلشده عالی کار میکنه، ولی در محیطهای شلوغ با نور بد یا صدای پسزمینه، دقت پایین میآد.
زبان فارسی: پردازش فارسی در Gemini پیشرفت کرده، ولی وقتی با vision ترکیب میشه («این متن فارسی روی تابلو رو بخون و ترجمه کن»)، هنوز خطاهای بیشتری نسبت به انگلیسی داره.
چرا Astra مهمه؟ — یه نگاه از زاویهٔ دیگه
وقتی گوگل Astra رو معرفی کرد، بعضیها گفتن «این فقط یه دموی fancyه». ولی اگه به تاریخچه نگاه کنیم، دموهای گوگل در I/O معمولاً ۱۲ تا ۲۴ ماه بعد وارد محصولات اصلی میشن — و Astra هم همین مسیر رو طی کرد.
مفهوم مهمتری که Astra نشون میده اینه: AI از «چتبات متنی» داره به «agent با درک محیط» تبدیل میشه. این یه shift پارادایمیه. دستیاری که فقط متن پردازش میکنه با دستیاری که «میبینه» و «میشنوه» و «به خاطر میآره» تجربهٔ بسیار متفاوتی میده.
برای کسی که داره روی AI ایرانی فکر میکنه، این مهمه: حافظه و پیوستگی چیزهایی هستن که تفاوت بین یه ابزار و یه همراه میسازن.
وضعیت دسترسی برای کاربر ایرانی
اگه میخوای الان با قابلیتهای نزدیک به Astra کار کنی:
- Gemini Live با کارت بینالمللی: بخشی از Astra وارد Gemini Live شده و با اشتراک Gemini Advanced قابل دسترسه
- Google Lens: قابلیتهای vision پایهتر Astra در Google Lens موجوده و بدون VPN هم کار میکنه
- GPT-4o vision: رقیب اصلی Astra که از طریق سرویسهای واسط برای ایران قابل استفادهست
همچنین بخوان
ادامهٔ مسیر
همهٔ مقالهها ←
جمنای چیست؟ راهنمای Gemini گوگل
جمنای چیست؟ راهنمای Gemini گوگل — راهنمای فارسی از مجموعهٔ «جمنای» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Gemini Pro، Ultra و Flash — تفاوتها
Gemini Pro، Ultra و Flash — تفاوتها — راهنمای فارسی از مجموعهٔ «جمنای» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Gemini در ایران — راهنمای استفاده
Gemini در ایران — راهنمای استفاده — راهنمای فارسی از مجموعهٔ «جمنای» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Gemini 3 و آیندهٔ مدلهای گوگل
Gemini 3 و آیندهٔ مدلهای گوگل — راهنمای فارسی از مجموعهٔ «جمنای» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.
بیشتر در «جمنای»
- NotebookLM — تحقیق با هوش مصنوعی
- Gemini در Google Workspace
- Bard و تاریخچهٔ مدلهای گوگل
- Veo — تولید ویدیو گوگل
- Imagen — تولید تصویر گوگل
- Gemini Live — تجربهٔ مکالمهٔ زنده
- AI Overviews در Google Search
- Gemini در مقابل ChatGPT
- Gemini در مقابل Claude
- Google AI Studio برای توسعهدهندهها
- App Memory در Gemini — حافظه هست، شناخت نیست