LLM فارسی

آیندهٔ هوش مصنوعی فارسی

آیندهٔ هوش مصنوعی فارسی، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ تیم آیرا•۱۷ بهمن ۱۴۰۴به‌روزرسانی: ۹ فروردین ۱۴۰۵•۴ دقیقه مطالعه

هوش مصنوعی فارسی الان کجاست و به کجا می‌ره؟ این سؤالیه که جواب دادنش در ۱۴۰۵ هم جذاب‌تر شده، هم سخت‌تر. چون هم ایران داره تکون می‌خوره، هم دنیا با سرعت عجیبی داره پیش می‌ره. این مقاله یه نگاه صادقانه و مبتنی بر واقعیته، نه تبلیغ، نه بدبینی.

وضعیت فعلی: چقدر عقب‌ایم؟

اگه صادق باشیم: فارسی هنوز یه زبان «درجه دو» توی دنیای LLM‌هاست.

اکثر مدل‌های بزرگ، GPT-4o، Claude، Gemini، فارسی رو پشتیبانی می‌کنن ولی نه در سطح انگلیسی. چرا؟ چون دیتای فارسی باکیفیت خیلی کمتره. اینترنت فارسی بزرگه، ولی محتوای دقیق، ساختارمند، و کم‌خطاش در مقایسه با انگلیسی حجم کمتری داره. نتیجه: مدل‌ها روی فارسی بیشتر دچار توهم (hallucination) می‌شن، استدلال پیچیده‌شون ضعیف‌تره، و سبک نوشتاریشون گاهی غیرطبیعیه.

در حوزهٔ tokenization هم مشکل جدیه. فارسی با الفبای عربی نوشته می‌شه ولی دستور زبانش کاملاً متفاوته. کلماتی مثل «می‌رفتیم» یا «نمی‌توانستند» توی tokenizer‌های اکثر مدل‌ها به شکل غیربهینه‌ای تقطیع می‌شن، یعنی برای یه متن فارسی توکن بیشتری لازمه، و استنتاج مدل ممکنه از مسیر بیفته. این موضوع رو در مقالهٔ چالش‌های tokenization فارسی بیشتر بررسی کردیم.

چه کارهایی دارن انجام می‌شه؟

مدل‌های بومی ایرانی: پروژه‌هایی مثل PersianMind و ParsBERT نشون می‌دن که اشتها برای ساختن مدل‌های بومی وجود داره. ParsBERT روی متون فارسی fine-tune شده و در وظایف NLP فارسی از مدل‌های عمومی بهتره. ولی هیچکدام هنوز به سطح GPT-4 یا Claude Sonnet نرسیدن.

دیتاست‌های فارسی: کار روی جمع‌آوری و تمیزکاری دیتاست‌های متن فارسی داره پیش می‌ره. Wikipedia فارسی، متون ادبی، داده‌های خبری، همه دارن به شکل ساختارمند‌تری آرشیو می‌شن.

مدل‌های چندزبانهٔ بهتر: Google و Meta روی مدل‌هایی کار می‌کنن که فارسی رو با کیفیت بالاتری پوشش بدن. Gemini 2.0 نسبت به نسل قبلی پیشرفت محسوسی در فارسی داشته.

سه محور اصلی آینده

۱. محور مدل، بومی یا جهانی؟

یه بحث اصلی اینه: آیا ایران باید به مدل‌های LLM بزرگ جهانی متکی باشه (با همهٔ محدودیت‌های تحریمی)، یا باید مدل بومی بسازه؟

جواب صادقانه: هر دو. برای کاربردهای عمومی، استفاده از مدل‌های جهانی با wrapper فارسی کارآمدتره. برای کاربردهای حساس و دولتی که نیاز به حاکمیت داده هست، مدل بومی ضروریه، و این رویکرد در کشورهای دیگه هم دیده می‌شه (مثلاً Mistral در فرانسه).

۲. محور دسترسی، تحریم‌ها چطور پیش می‌رن؟

این صادقانه‌ترین بخش مقاله‌ست. الان بهترین مدل‌های AI از ایران مستقیماً قابل استفاده نیستن، ChatGPT، Claude، Gemini همه تحریم ایران رو اعمال می‌کنن. کاربرهای ایرانی با VPN و اکانت‌های واسط کار می‌کنن، که ناپایداره و اخلاقی بودنش جای بحث داره.

چند سناریو ممکنه:

محصولات بومی: شرکت‌های ایرانی که سرویس می‌دن بدون نیاز به VPN. آیراچت یکی از همینهاست، بدون محدودیت جغرافیایی.
مدل‌های اوپن‌سورس لوکال: اجرای مدل‌هایی مثل LLaMA یا Mistral روی سرور داخلی، نیاز به زیرساخت GPU داره.
پیشرفت دیپلماتیک: غیرقابل پیش‌بینیه، ولی اگه اتفاق بیفته تحول بزرگیه.

۳. محور تجربه، فارسی‌نویسی در عصر AI

اینجا جالب‌ترین تحول داره شکل می‌گیره. وقتی مدل‌ها در فارسی خوب بشن، چه اتفاقی می‌افته؟

نوشتار: محتوای فارسی در هر حوزه‌ای راحت‌تر تولید می‌شه. خطر این وسط: کیفیت میانگین محتوا پایین میاد، ولی تولیدکننده‌های باکیفیت همچنان ارزش دارن.

کد فارسی: ابزارهایی مثل AiraCode دارن کدنویسی رو با حافظهٔ پروژه بومی می‌کنن، یه تجربه که قبلاً فقط برای انگلیسی‌زبان‌ها بود.

آموزش: ظرفیت آموزش شخصی‌سازی‌شده به فارسی الان واقعاً در دسترسه. یه دانش‌آموز ایرانی می‌تونه از یه مدل بخواد مثل یه معلم خوب باهاش کار کنه، به شرطی که به ابزار مناسب دسترسی داشته باشه.

چالش‌های ساختاری که نباید نادیده گرفت

کمبود تخصص: متخصصان AI/ML در ایران عددشون محدوده، و خیلی از بهترین‌هاشون مهاجرت کردن. این یه «مشکل مرغ و تخم‌مرغ»‌ه، بدون اکوسیستم خوب، بهترین‌ها می‌رن، بدون بهترین‌ها اکوسیستم نمی‌سازی.

زیرساخت GPU: آموزش مدل‌های زبانی بزرگ نیاز به GPU farm گرانقیمته. تحریم‌های سخت‌افزاری (Nvidia H100/A100 صادر نمی‌شن) این رو سخت‌تر می‌کنه.

اعتماد کاربر: بخشی از کاربران ایرانی هنوز به AI بومی اعتماد ندارن، نگران حریم خصوصی یا کیفیتن. این اعتماد باید با محصول خوب ساخته بشه.

چه آینده‌ای محتمله؟

تا افق ۵ ساله، چند چیز محتمله:

مدل‌های جهانی در فارسی خیلی بهتر می‌شن (این تقریباً قطعیه)
چند محصول بومی ایرانی در حوزه‌های تخصصی (پزشکی، حقوق، مالی) جایگاه خودشون رو می‌گیرن
اکوسیستم دولتی‌ها و مدل‌های محلی توسعه پیدا می‌کنه، با سرعتی که به بودجه و تصمیمات سیاسی بستگی داره
ابزارهایی که شخصی‌سازی تجربه رو برای کاربر فارسی‌زبان فراهم می‌کنن، مثل شناخت پیوسته در آیرا، رشد می‌کنن چون جای خالی‌شون احساس می‌شه

خلاصه

هوش مصنوعی فارسی الان درحال شکل‌گیریه، نه رسیده، نه ناامیدکننده. مسیر روشنه ولی موانع جدی هستن. فرصت برای ساختن ابزارهای خوب برای کاربر ایرانی واقعیه، و الان چند تیم دارن جدی کار می‌کنن.

کاربر ایرانی نباید منتظر بمونه. همین الان ابزارهایی هستن که کار می‌کنن، حتی با همهٔ محدودیت‌ها.

همچنین بخوان

#LLM فارسی

ادامهٔ مسیر

همهٔ مقاله‌ها ←

LLM فارسی

مدل زبانی فارسی چیست

مدل زبانی فارسی چیست، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LLM فارسی

PartAI، مدل زبانی فارسی

PartAI، مدل زبانی فارسی، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LLM فارسی

PersianMind

PersianMind، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LLM فارسی

ParsBERT

ParsBERT، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

وضعیت فعلی: چقدر عقب‌ایم؟

چه کارهایی دارن انجام می‌شه؟

سه محور اصلی آینده

۱. محور مدل، بومی یا جهانی؟

۲. محور دسترسی، تحریم‌ها چطور پیش می‌رن؟

۳. محور تجربه، فارسی‌نویسی در عصر AI

چالش‌های ساختاری که نباید نادیده گرفت

چه آینده‌ای محتمله؟

خلاصه

همچنین بخوان

ادامهٔ مسیر

مدل زبانی فارسی چیست

PartAI، مدل زبانی فارسی

PersianMind

ParsBERT

بیشتر در «LLM فارسی»