جمنای

Bard و تاریخچهٔ مدل‌های گوگل

Bard و تاریخچهٔ مدل‌های گوگل — راهنمای فارسی از مجموعهٔ «جمنای» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ ۳ دقیقه مطالعه
تصویر مقالهٔ Bard و تاریخچهٔ مدل‌های گوگل

گوگل شاید اولین شرکتی بود که بنیادهای LLM مدرن رو گذاشت — ترانسفورمر، BERT، T5، PaLM — ولی در مسابقهٔ چت‌بات‌های محبوب عقب افتاد. داستان Bard و تبدیلش به Gemini، یکی از جالب‌ترین ماجراهای چند سال اخیر هوش مصنوعیه.

قبل از Bard: LaMDA و گفتگوی خطرناک

قبل از اینکه Bard وجود داشته باشه، گوگل مدلی به اسم LaMDA (Language Model for Dialogue Applications) داشت که از ۲۰۲۱ روی آن کار می‌کرد. LaMDA روی مکالمه‌های انسانی آموزش دیده بود و گوگل آن را در Google I/O 2021 نمایش داد.

LaMDA بیشتر به عنوان پروژهٔ تحقیقاتی در گوگل ماند — تا اینکه یکی از مهندسان گوگل در تابستان ۲۰۲۲ ادعا کرد LaMDA «هوشمند» و «دارای احساس» است. گوگل این مهندس رو اخراج کرد. این ماجرا LaMDA رو مشهور کرد، اما گوگل هنوز اون رو عمومی نکرده بود.

نوامبر ۲۰۲۲: همه چیز عوض شد

وقتی OpenAI در نوامبر ۲۰۲۲ ChatGPT رو منتشر کرد، گوگل به حالت اضطرار افتاد. گزارش‌ها حاکی بود که گوگل «کد قرمز» (code red) اعلام کرد — یعنی تهدید اصلی برای کسب‌وکار جستجوش.

پاسخ گوگل سریع اما ناهموار بود.

Bard — فوریه ۲۰۲۳: شروع پر از لغزش

در ۶ فوریه ۲۰۲۳ گوگل از Bard رونمایی کرد — یه چت‌بات مبتنی بر نسخهٔ سبک‌وزنی از LaMDA. رونمایی با فاجعه همراه بود: در همان تبلیغ رسمی، Bard یه اشتباه واقعی مرتکب شد و ادعا کرد James Webb Space Telescope اولین عکس از یک سیارهٔ خارج از منظومهٔ شمسی رو گرفته — که غلط بود. سهام گوگل آن روز ۷٪ افتاد.

Bard در اوایل کارش روی LaMDA بود، بعد به PaLM 2 مهاجرت کرد که یه مدل قوی‌تر بود.

پشت صحنه: مدل‌های گوگل

برای فهمیدن Bard، باید نسب مدل‌های گوگل رو بشناسی:

BERT (2018): اولین مدل بزرگ گوگل که روی درک زبان تأثیر انقلابی گذاشت. Bidirectional Encoder Representations from Transformers — هنوز پایه‌ای‌ترین ابزار NLP در موتور جستجوی گوگله.

T5 (2019): Text-to-Text Transfer Transformer — همه چیز رو به مسئلهٔ text-to-text تبدیل کرد. این رویکرد بعداً در بسیاری از مدل‌ها تأثیرگذار شد.

LaMDA (2021-2022): خاص برای مکالمه. مدل زیربنای Bard اولیه.

PaLM (2022): Pathways Language Model — مدلی با ۵۴۰ میلیارد پارامتر که گوگل روی Pathways (زیرساخت محاسباتی اختصاصی) آموزش داد. PaLM 2 در ۲۰۲۳ آمد و قوی‌تر، چندزبانه‌تر، و کاراتر بود.

Gemini (دسامبر ۲۰۲۳): لحظهٔ تحول اصلی. گوگل DeepMind مدل کاملاً جدیدی ساخت که multimodal بود — یعنی از اول روی متن، تصویر، صدا، ویدیو و کد به‌طور همزمان آموزش دیده بود. نه یه مدل زبانی که بعداً چشم بهش اضافه شده باشه.

بهار ۲۰۲۴: Bard تبدیل به Gemini شد

در فوریه ۲۰۲۴ گوگل رسماً Bard رو کُشت و همه‌چیز رو زیر برند Gemini متمرکز کرد:

  • Gemini Nano: روی دستگاه (Pixel phones)، بدون نیاز به اینترنت
  • Gemini Flash: سریع، ارزان، مناسب حجم بالا
  • Gemini Pro: مدل اصلی در اپ Gemini
  • Gemini Ultra (Gemini Advanced): قوی‌ترین مدل، با اشتراک Google One

چرا این تاریخچه مهم است؟

گوگل برتری فنی داشت — مقالهٔ Attention is All You Need از گوگل بود، ترانسفورمر از گوگل بود — ولی اولین به بازار نرسید. چرا؟

یه دلیل مهم: ترس از کانیبالیزاسیون. گوگل می‌دانست اگه چت‌بات جستجو رو جایگزین کنه، درآمد تبلیغاتش که سالانه ۱۷۰ میلیارد دلاره از بین می‌ره. OpenAI این ملاحظه نداشت.

درس دیگر: سرعت به بازار vs کیفیت. Bard عجولانه منتشر شد و بد به خاطر سپرده شد. Gemini 1.5 Pro که یک سال بعد آمد، واقعاً یکی از بهترین مدل‌های موجود بود — با context window یک میلیون توکن که رکورد بازار بود.

دسترسی برای کاربران ایرانی

مثل اکثر سرویس‌های آمریکایی، Gemini به IP ایران دسترسی نمی‌ده. برای استفاده از Gemini نیاز به VPN داری. Google AI Studio (برای API) هم به ایران خدمات رسمی نمی‌ده.

اگه دنبال یه هوش مصنوعی فارسی‌زبان هستی که بدون VPN بشه ازش استفاده کرد و حافظه داره، آیراچت یه گزینهٔ بومیه.

همچنین بخوان

#جمنای

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «جمنای»