هوش مصنوعی

LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ

LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ، راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ تیم آیرا•۲۲ بهمن ۱۴۰۴به‌روزرسانی: ۵ اردیبهشت ۱۴۰۵•۳ دقیقه مطالعه

تصویر مقالهٔ LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ

وقتی ChatGPT جواب می‌ده، وقتی Claude کدت رو اصلاح می‌کنه، وقتی آیرا متنت رو می‌فهمه، پشت همهٔ اینا یه LLM نشسته. ولی LLM دقیقاً چیه؟ این مقاله یه توضیح صادقانه و غیرفنی می‌ده که برای کاربر فارسی‌زبان واقعی نوشته شده، نه برای یه محقق دانشگاهی.

LLM به زبان ساده

LLM مخفف Large Language Model یا «مدل زبانی بزرگ» است. این یه نوع شبکهٔ عصبی مصنوعیه که روی حجم عظیمی از متن (کتاب، وبسایت، کد، مقاله) آموزش دیده تا بتونه زبان رو «بفهمه» و «تولید کنه».

بذار صادق باشیم: LLM واقعاً «نمی‌فهمه» به اون شکلی که یه انسان می‌فهمه. ولی با پیش‌بینی آماری اینکه کلمهٔ بعدی چی باید باشه، روی تریلیون‌ها نمونهٔ آموزشی، نتیجه‌ای تولید می‌کنه که اغلب مفید، منسجم، و درست به نظر می‌رسه.

چرا «بزرگ»؟

کلمهٔ «بزرگ» در LLM به دو چیز اشاره داره:

۱. تعداد پارامتر، پارامترها وزن‌های ریاضی داخل شبکهٔ عصبی‌ان. GPT-4 تخمیناً ۱.۸ تریلیون پارامتر داره. Llama 3.1 (70B) هفتاد میلیارد پارامتر. برای مقایسه: مغز انسان حدود ۱۰۰ تریلیون سیناپس داره، پس ما هنوز خیلی جلوتریم!

۲. داده‌های آموزشی، مدل‌های مدرن روی صدها میلیارد تا تریلیون‌ها کلمه آموزش می‌بینن. این یعنی یه نمونهٔ GPT-4 چیزی معادل بارها دور زدن تمام اینترنت رو خونده.

چطور کار می‌کنه؟ (بدون فرمول)

تصور کن داری «بازی پیش‌بینی» بازی می‌کنی: «یه سیب در روز...»، مغزت می‌گه «...دکتر رو دور می‌کنه». LLM دقیقاً همین کار رو می‌کنه، ولی در مقیاس میلیاردی و با دقت احتمالاتی.

مرحله‌های اصلی:

۱. Tokenization، متن ورودی به تکه‌های کوچیک (token) خرد می‌شه. فارسی معمولاً token بیشتری نسبت به انگلیسی مصرف می‌کنه، یه چالش واقعی برای کاربران ایرانی.

۲. Attention mechanism، مدل می‌فهمه کدوم بخش‌های جملهٔ قبلی برای تولید کلمهٔ بعدی مهم‌ترن. این همون چیزیه که باعث می‌شه LLM «زمینه» رو حفظ کنه.

۳. Decoding، از میان هزاران کلمهٔ ممکن، محتمل‌ترین دنباله انتخاب می‌شه.

LLM‌های اصلی که باید بشناسی

مدل	سازنده	ویژگی برجسته	دسترسی از ایران
GPT-4o	OpenAI	همه‌کاره، قوی	نیاز به VPN/تحریم
Claude 3.5 Sonnet	Anthropic	استدلال، کدنویسی	نیاز به VPN/تحریم
Gemini 1.5 Pro	Google	کانتکست ۱M توکن	نیاز به VPN/تحریم
Llama 3.3 (70B)	Meta	اوپن‌سورس، اجرای محلی	بدون محدودیت
Mistral Large	Mistral	اروپایی، اوپن‌سورس	بدون محدودیت

برای کاربر ایرانی، مدل‌های اوپن‌سورس مثل Llama و Mistral اهمیت ویژه‌ای دارن چون می‌شه روی سرور یا حتی کامپیوتر شخصی اجرا کرد، بدون نیاز به حساب خارجی.

LLM در مقابل چیزهایی که قبلاً بود

قبل از عصر LLM، هوش مصنوعی زبانی کارهای خاصی می‌کرد: ترجمهٔ ماشینی، طبقه‌بندی متن، یا سیستم‌های Q&A ساده. LLM اولین باره که یه مدل واحد می‌تونه همزمان ترجمه کنه، کد بنویسه، خلاصه کنه، تحلیل کنه، و دیالوگ برقرار کنه.

این «عمومیت» (generalization) تحول اصلیه.

محدودیت‌های واقعی LLM

صادقانه بگم چه چیزهایی LLM‌ها درست نمی‌کنن:

Hallucination، مدل گاهی اطلاعات نادرست رو با اطمینان بیان می‌کنه. یه تاریخ اشتباه، یه منبع ساختگی، یه آمار تخیلی.
دانش منقطع (cutoff date)، مدل فقط تا زمان آموزشش اطلاعات داره. رویدادهای بعدش رو نمی‌دونه.
حافظهٔ کوتاه، در یه مکالمه، LLM فقط «کانتکست پنجره» داره. بعد از اتمام گفتگو، همه چیز فراموش می‌شه. (این همون مشکلیه که آیرا با شناخت پیوسته حل می‌کنه.)
منطق ریاضی ضعیف، محاسبات پیچیده هنوز جای ابزارهای تخصصی رو نمی‌گیره.

چالش فارسی در LLM‌ها

فارسی برای LLM‌های بزرگ یه زبان «کم‌داده» (low-resource) محسوب می‌شه، هرچند این وضعیت داره بهتر می‌شه. چند چالش مشخص:

۱. توکنیزاسیون ناکارآمد، مدل‌های بین‌المللی اغلب هر کلمهٔ فارسی رو به چند توکن می‌شکنن که هزینه رو بالا می‌بره. ۲. نوشتار راست‌به‌چپ، در خروجی‌های فرمت‌دار گاهی مشکل می‌ده. ۳. لهجه و محاوره، فارسی محاوره‌ای، کلمات عامیانه، و اصطلاحات ایرانی کمتر در داده‌های آموزشی حضور دارن.

برای حل این مشکلات، پروژه‌هایی مثل ParsaBERT و مدل‌هایی که روی داده‌های فارسی fine-tune شدن دارن کار می‌کنن.

LLM به‌عنوان زیرساخت، نه محصول نهایی

یه اشتباه رایج اینه که LLM رو با محصولاتی مثل ChatGPT یکی بدونیم. ChatGPT یه رابط کاربریه که روی GPT-4 ساخته شده. Claude.ai یه رابطه که روی مدل Claude. آیراچت هم روی مدل‌های قوی بین‌المللی ساخته شده ولی لایهٔ شناخت پیوسته اضافه کرده که باعث می‌شه تجربهٔ متفاوتی داشته باشی.

LLM‌ها موتورن. محصولات نهایی ماشین‌های مختلفی هستن که از این موتور استفاده می‌کنن.

همچنین بخوان

هوش مصنوعی چیست؟
Transformer چیست؟ معماری پشت LLM‌ها
شناخت پیوسته در هوش مصنوعی، چرا حافظهٔ بلندمدت اهمیت داره
مدل زبانی فارسی چیست؟
RAG چیست؟ ترکیب LLM با جستجو

#هوش مصنوعی#LLM

ادامهٔ مسیر

همهٔ مقاله‌ها ←

هوش مصنوعی

هوش مصنوعی چیست؟ راهنمای کامل فارسی برای شروع در ۱۴۰۵

هوش مصنوعی به زبان ساده: تاریخچه، انواع، مدل‌های زبانی بزرگ، شبکه‌های عصبی و چرا ۱۴۰۵ نقطهٔ عطف کاربر فارسی‌زبان است.

هوش مصنوعی

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر، راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

هوش مصنوعی

یادگیری ماشین چیست؟

یادگیری ماشین چیست؟، راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

هوش مصنوعی

یادگیری عمیق چیست؟

یادگیری عمیق چیست؟، راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LLM به زبان ساده

چرا «بزرگ»؟

چطور کار می‌کنه؟ (بدون فرمول)

LLM‌های اصلی که باید بشناسی

LLM در مقابل چیزهایی که قبلاً بود

محدودیت‌های واقعی LLM

چالش فارسی در LLM‌ها

LLM به‌عنوان زیرساخت، نه محصول نهایی

همچنین بخوان

ادامهٔ مسیر

هوش مصنوعی چیست؟ راهنمای کامل فارسی برای شروع در ۱۴۰۵

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر

یادگیری ماشین چیست؟

یادگیری عمیق چیست؟

بیشتر در «هوش مصنوعی»