آیندهٔ هوش مصنوعی فارسی
آیندهٔ هوش مصنوعی فارسی — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

هوش مصنوعی فارسی الان کجاست و به کجا میره؟ این سؤالیه که جواب دادنش در ۱۴۰۵ هم جذابتر شده، هم سختتر. چون هم ایران داره تکون میخوره، هم دنیا با سرعت عجیبی داره پیش میره. این مقاله یه نگاه صادقانه و مبتنی بر واقعیته — نه تبلیغ، نه بدبینی.
وضعیت فعلی: چقدر عقبایم؟
اگه صادق باشیم: فارسی هنوز یه زبان «درجه دو» توی دنیای LLMهاست.
اکثر مدلهای بزرگ — GPT-4o، Claude، Gemini — فارسی رو پشتیبانی میکنن ولی نه در سطح انگلیسی. چرا؟ چون دیتای فارسی باکیفیت خیلی کمتره. اینترنت فارسی بزرگه، ولی محتوای دقیق، ساختارمند، و کمخطاش در مقایسه با انگلیسی حجم کمتری داره. نتیجه: مدلها روی فارسی بیشتر دچار توهم (hallucination) میشن، استدلال پیچیدهشون ضعیفتره، و سبک نوشتاریشون گاهی غیرطبیعیه.
در حوزهٔ tokenization هم مشکل جدیه. فارسی با الفبای عربی نوشته میشه ولی دستور زبانش کاملاً متفاوته. کلماتی مثل «میرفتیم» یا «نمیتوانستند» توی tokenizerهای اکثر مدلها به شکل غیربهینهای تقطیع میشن — یعنی برای یه متن فارسی توکن بیشتری لازمه، و استنتاج مدل ممکنه از مسیر بیفته. این موضوع رو در مقالهٔ چالشهای tokenization فارسی بیشتر بررسی کردیم.
چه کارهایی دارن انجام میشه؟
مدلهای بومی ایرانی: پروژههایی مثل PersianMind و ParsBERT نشون میدن که اشتها برای ساختن مدلهای بومی وجود داره. ParsBERT روی متون فارسی fine-tune شده و در وظایف NLP فارسی از مدلهای عمومی بهتره. ولی هیچکدام هنوز به سطح GPT-4 یا Claude Sonnet نرسیدن.
دیتاستهای فارسی: کار روی جمعآوری و تمیزکاری دیتاستهای متن فارسی داره پیش میره. Wikipedia فارسی، متون ادبی، دادههای خبری — همه دارن به شکل ساختارمندتری آرشیو میشن.
مدلهای چندزبانهٔ بهتر: Google و Meta روی مدلهایی کار میکنن که فارسی رو با کیفیت بالاتری پوشش بدن. Gemini 2.0 نسبت به نسل قبلی پیشرفت محسوسی در فارسی داشته.
سه محور اصلی آینده
۱. محور مدل — بومی یا جهانی؟
یه بحث اصلی اینه: آیا ایران باید به مدلهای LLM بزرگ جهانی متکی باشه (با همهٔ محدودیتهای تحریمی)، یا باید مدل بومی بسازه؟
جواب صادقانه: هر دو. برای کاربردهای عمومی، استفاده از مدلهای جهانی با wrapper فارسی کارآمدتره. برای کاربردهای حساس و دولتی که نیاز به حاکمیت داده هست، مدل بومی ضروریه — و این رویکرد در کشورهای دیگه هم دیده میشه (مثلاً Mistral در فرانسه).
۲. محور دسترسی — تحریمها چطور پیش میرن؟
این صادقانهترین بخش مقالهست. الان بهترین مدلهای AI از ایران مستقیماً قابل استفاده نیستن — ChatGPT، Claude، Gemini همه تحریم ایران رو اعمال میکنن. کاربرهای ایرانی با VPN و اکانتهای واسط کار میکنن، که ناپایداره و اخلاقی بودنش جای بحث داره.
چند سناریو ممکنه:
- محصولات بومی: شرکتهای ایرانی که سرویس میدن بدون نیاز به VPN. آیراچت یکی از همینهاست — بدون محدودیت جغرافیایی.
- مدلهای اوپنسورس لوکال: اجرای مدلهایی مثل LLaMA یا Mistral روی سرور داخلی — نیاز به زیرساخت GPU داره.
- پیشرفت دیپلماتیک: غیرقابل پیشبینیه، ولی اگه اتفاق بیفته تحول بزرگیه.
۳. محور تجربه — فارسینویسی در عصر AI
اینجا جالبترین تحول داره شکل میگیره. وقتی مدلها در فارسی خوب بشن، چه اتفاقی میافته؟
نوشتار: محتوای فارسی در هر حوزهای راحتتر تولید میشه. خطر این وسط: کیفیت میانگین محتوا پایین میاد، ولی تولیدکنندههای باکیفیت همچنان ارزش دارن.
کد فارسی: ابزارهایی مثل AiraCode دارن کدنویسی رو با حافظهٔ پروژه بومی میکنن — یه تجربه که قبلاً فقط برای انگلیسیزبانها بود.
آموزش: ظرفیت آموزش شخصیسازیشده به فارسی الان واقعاً در دسترسه. یه دانشآموز ایرانی میتونه از یه مدل بخواد مثل یه معلم خوب باهاش کار کنه — به شرطی که به ابزار مناسب دسترسی داشته باشه.
چالشهای ساختاری که نباید نادیده گرفت
کمبود تخصص: متخصصان AI/ML در ایران عددشون محدوده، و خیلی از بهترینهاشون مهاجرت کردن. این یه «مشکل مرغ و تخممرغ»ه — بدون اکوسیستم خوب، بهترینها میرن، بدون بهترینها اکوسیستم نمیسازی.
زیرساخت GPU: آموزش مدلهای زبانی بزرگ نیاز به GPU farm گرانقیمته. تحریمهای سختافزاری (Nvidia H100/A100 صادر نمیشن) این رو سختتر میکنه.
اعتماد کاربر: بخشی از کاربران ایرانی هنوز به AI بومی اعتماد ندارن — نگران حریم خصوصی یا کیفیتن. این اعتماد باید با محصول خوب ساخته بشه.
چه آیندهای محتمله؟
تا افق ۵ ساله، چند چیز محتمله:
- مدلهای جهانی در فارسی خیلی بهتر میشن (این تقریباً قطعیه)
- چند محصول بومی ایرانی در حوزههای تخصصی (پزشکی، حقوق، مالی) جایگاه خودشون رو میگیرن
- اکوسیستم دولتیها و مدلهای محلی توسعه پیدا میکنه — با سرعتی که به بودجه و تصمیمات سیاسی بستگی داره
- ابزارهایی که شخصیسازی تجربه رو برای کاربر فارسیزبان فراهم میکنن — مثل شناخت پیوسته در آیرا — رشد میکنن چون جای خالیشون احساس میشه
خلاصه
هوش مصنوعی فارسی الان درحال شکلگیریه — نه رسیده، نه ناامیدکننده. مسیر روشنه ولی موانع جدی هستن. فرصت برای ساختن ابزارهای خوب برای کاربر ایرانی واقعیه — و الان چند تیم دارن جدی کار میکنن.
کاربر ایرانی نباید منتظر بمونه. همین الان ابزارهایی هستن که کار میکنن، حتی با همهٔ محدودیتها.
همچنین بخوان
ادامهٔ مسیر
همهٔ مقالهها ←
مدل زبانی فارسی چیست
مدل زبانی فارسی چیست — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

PartAI — مدل زبانی فارسی
PartAI — مدل زبانی فارسی — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

PersianMind
PersianMind — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

ParsBERT
ParsBERT — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.