هوش مصنوعی

LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ

LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ

وقتی ChatGPT جواب می‌ده، وقتی Claude کدت رو اصلاح می‌کنه، وقتی آیرا متنت رو می‌فهمه — پشت همهٔ اینا یه LLM نشسته. ولی LLM دقیقاً چیه؟ این مقاله یه توضیح صادقانه و غیرفنی می‌ده که برای کاربر فارسی‌زبان واقعی نوشته شده، نه برای یه محقق دانشگاهی.

LLM به زبان ساده

LLM مخفف Large Language Model یا «مدل زبانی بزرگ» است. این یه نوع شبکهٔ عصبی مصنوعیه که روی حجم عظیمی از متن (کتاب، وبسایت، کد، مقاله) آموزش دیده تا بتونه زبان رو «بفهمه» و «تولید کنه».

بذار صادق باشیم: LLM واقعاً «نمی‌فهمه» به اون شکلی که یه انسان می‌فهمه. ولی با پیش‌بینی آماری اینکه کلمهٔ بعدی چی باید باشه — روی تریلیون‌ها نمونهٔ آموزشی — نتیجه‌ای تولید می‌کنه که اغلب مفید، منسجم، و درست به نظر می‌رسه.

چرا «بزرگ»؟

کلمهٔ «بزرگ» در LLM به دو چیز اشاره داره:

۱. تعداد پارامتر — پارامترها وزن‌های ریاضی داخل شبکهٔ عصبی‌ان. GPT-4 تخمیناً ۱.۸ تریلیون پارامتر داره. Llama 3.1 (70B) هفتاد میلیارد پارامتر. برای مقایسه: مغز انسان حدود ۱۰۰ تریلیون سیناپس داره — پس ما هنوز خیلی جلوتریم!

۲. داده‌های آموزشی — مدل‌های مدرن روی صدها میلیارد تا تریلیون‌ها کلمه آموزش می‌بینن. این یعنی یه نمونهٔ GPT-4 چیزی معادل بارها دور زدن تمام اینترنت رو خونده.

چطور کار می‌کنه؟ (بدون فرمول)

تصور کن داری «بازی پیش‌بینی» بازی می‌کنی: «یه سیب در روز...» — مغزت می‌گه «...دکتر رو دور می‌کنه». LLM دقیقاً همین کار رو می‌کنه، ولی در مقیاس میلیاردی و با دقت احتمالاتی.

مرحله‌های اصلی:

۱. Tokenization — متن ورودی به تکه‌های کوچیک (token) خرد می‌شه. فارسی معمولاً token بیشتری نسبت به انگلیسی مصرف می‌کنه — یه چالش واقعی برای کاربران ایرانی.

۲. Attention mechanism — مدل می‌فهمه کدوم بخش‌های جملهٔ قبلی برای تولید کلمهٔ بعدی مهم‌ترن. این همون چیزیه که باعث می‌شه LLM «زمینه» رو حفظ کنه.

۳. Decoding — از میان هزاران کلمهٔ ممکن، محتمل‌ترین دنباله انتخاب می‌شه.

LLM‌های اصلی که باید بشناسی

مدلسازندهویژگی برجستهدسترسی از ایران
GPT-4oOpenAIهمه‌کاره، قوینیاز به VPN/تحریم
Claude 3.5 SonnetAnthropicاستدلال، کدنویسینیاز به VPN/تحریم
Gemini 1.5 ProGoogleکانتکست ۱M توکننیاز به VPN/تحریم
Llama 3.3 (70B)Metaاوپن‌سورس، اجرای محلیبدون محدودیت
Mistral LargeMistralاروپایی، اوپن‌سورسبدون محدودیت

برای کاربر ایرانی، مدل‌های اوپن‌سورس مثل Llama و Mistral اهمیت ویژه‌ای دارن چون می‌شه روی سرور یا حتی کامپیوتر شخصی اجرا کرد — بدون نیاز به حساب خارجی.

LLM در مقابل چیزهایی که قبلاً بود

قبل از عصر LLM، هوش مصنوعی زبانی کارهای خاصی می‌کرد: ترجمهٔ ماشینی، طبقه‌بندی متن، یا سیستم‌های Q&A ساده. LLM اولین باره که یه مدل واحد می‌تونه همزمان ترجمه کنه، کد بنویسه، خلاصه کنه، تحلیل کنه، و دیالوگ برقرار کنه.

این «عمومیت» (generalization) تحول اصلیه.

محدودیت‌های واقعی LLM

صادقانه بگم چه چیزهایی LLM‌ها درست نمی‌کنن:

  • Hallucination — مدل گاهی اطلاعات نادرست رو با اطمینان بیان می‌کنه. یه تاریخ اشتباه، یه منبع ساختگی، یه آمار تخیلی.
  • دانش منقطع (cutoff date) — مدل فقط تا زمان آموزشش اطلاعات داره. رویدادهای بعدش رو نمی‌دونه.
  • حافظهٔ کوتاه — در یه مکالمه، LLM فقط «کانتکست پنجره» داره. بعد از اتمام گفتگو، همه چیز فراموش می‌شه. (این همون مشکلیه که آیرا با شناخت پیوسته حل می‌کنه.)
  • منطق ریاضی ضعیف — محاسبات پیچیده هنوز جای ابزارهای تخصصی رو نمی‌گیره.

چالش فارسی در LLM‌ها

فارسی برای LLM‌های بزرگ یه زبان «کم‌داده» (low-resource) محسوب می‌شه — هرچند این وضعیت داره بهتر می‌شه. چند چالش مشخص:

۱. توکنیزاسیون ناکارآمد — مدل‌های بین‌المللی اغلب هر کلمهٔ فارسی رو به چند توکن می‌شکنن که هزینه رو بالا می‌بره. ۲. نوشتار راست‌به‌چپ — در خروجی‌های فرمت‌دار گاهی مشکل می‌ده. ۳. لهجه و محاوره — فارسی محاوره‌ای، کلمات عامیانه، و اصطلاحات ایرانی کمتر در داده‌های آموزشی حضور دارن.

برای حل این مشکلات، پروژه‌هایی مثل ParsaBERT و مدل‌هایی که روی داده‌های فارسی fine-tune شدن دارن کار می‌کنن.

LLM به‌عنوان زیرساخت، نه محصول نهایی

یه اشتباه رایج اینه که LLM رو با محصولاتی مثل ChatGPT یکی بدونیم. ChatGPT یه رابط کاربریه که روی GPT-4 ساخته شده. Claude.ai یه رابطه که روی مدل Claude. آیراچت هم روی مدل‌های قوی بین‌المللی ساخته شده ولی لایهٔ شناخت پیوسته اضافه کرده که باعث می‌شه تجربهٔ متفاوتی داشته باشی.

LLM‌ها موتورن. محصولات نهایی ماشین‌های مختلفی هستن که از این موتور استفاده می‌کنن.

همچنین بخوان

#هوش مصنوعی#LLM

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «هوش مصنوعی»