PartAI — مدل زبانی فارسی
PartAI — مدل زبانی فارسی — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

وقتی صحبت از مدلهای زبانی بومی ایرانی میشه، PartAI یکی از معدود شرکتهاییه که نه فقط ادعا، بلکه مدل واقعی — با کد باز — منتشر کرده. اگه میخوای بدونی این شرکت کیه، مدلش چطور کار میکنه، و چقدر واقعاً میارزه بهش توجه کنی، ادامه بده.
PartAI کیه؟
PartAI (پارتای) یه شرکت هوش مصنوعی ایرانیه که روی پردازش زبان طبیعی فارسی تمرکز داره. برخلاف خیلی از ادعاهای «هوش مصنوعی بومی» که پشتشون چیز مشخصی نیست، PartAI مدلهاش رو روی Hugging Face و Ollama منتشر کرده — یعنی کسی میتونه دانلود کنه، آزمایش کنه و ارزیابی کنه.
Dorna: مدل اصلی PartAI
مشهورترین مدل PartAI، Dorna (درنا) نام داره. نسخهٔ اصلیاش در سال ۲۰۲۴ معرفی شد.
معماری
Dorna یه مدل decoder-onlyه که بر پایهٔ Llama-3 8B ساخته شده — یعنی Meta پایه رو ساخته، و PartAI روی دادههای فارسی fine-tune کرده. این روش که به اصطلاح «فاینتیونینگ» نامیده میشه، رایجترین راه ساختن مدلهای زبانی بومی در کشورهاییه که منابع کافی برای آموزش از صفر ندارن.
نام کامل مدل: PartAI/Dorna-Llama3-8B-Instruct
چطور روی دیتا آموزش دیده؟
PartAI یه مجموعه دستور (instruction dataset) فارسی برای Dorna ساخت. ایدهٔ اصلی اینه که مدل Llama-3 که انگلیسی خوبه، با آموزش روی دادههای دستور فارسی، یاد میگیره دستورات فارسی رو هم بفهمه و پاسخ بده.
تحقیقات نشون داده وقتی از Dorna بهجای یه مدل عمومی برای وظایف فارسی استفاده میشه، دقت حدود ۱۱٪ بهتر میشه — که برای وظایف domain-specific عدد قابل توجهیه.
عملکرد در RAG فارسی
Dorna در یه مطالعهٔ مستقل که روی بازیابی دانش دانشگاهی فارسی انجام شد، در کنار مدلهایی مثل GPT-4o و Claude ارزیابی شد. Dorna با Dorna Embeddings (embeddings اختصاصی فارسی) یه امتیاز faithfulness (وفاداری به منبع) ۰.۸۳۹ گرفت — که نشون میده برای پروژههای RAG فارسی گزینهٔ جدیه.
دانلود و استفاده
از طریق Hugging Face
PartAI/Dorna-Llama3-8B-Instruct
از طریق Ollama
ollama run partai/dorna-llama3
برای اجرای محلی Dorna روی یه لپتاپ معمولی، نسخهٔ کوانتایزشده (GGUF) رو نیاز داری که حجمش کمتره. نسخهٔ Q4 حدود ۴-۵ گیگابایته و روی ۸ گیگابایت RAM اجرا میشه (با کندی).
محدودیتهای واقعی
صادقانه باید گفت:
۸ میلیارد پارامتر در سال ۲۰۲۶ دیگه مدل بزرگی نیست. مدلهای مثل Gemini، GPT-4o، یا Claude با صدها میلیارد پارامتر کار میکنن. Dorna برای وظایف سبک فارسی مثل خلاصهسازی اخبار، پاسخ به سوالات ساده، یا pipeline های RAG محلی مناسبه — اما برای استدلال پیچیده یا نوشتن کد سخت، به مدلهای بزرگتر نیاز داری.
همچنین fine-tuning از روی یه مدل بزرگ محدودیت ذاتی داره: رفتارهای پایهٔ مدل به Llama-3 Meta بستگی داره.
چرا مدلهای بومی مهمن؟
حتی اگه Dorna از نظر کیفی با GPT-4o برابر نباشه، دو دلیل مهم برای توجه به مدلهای بومی وجود داره:
۱. حریم خصوصی داده — اگه دادههای حساس داری (مکالمات مشتری، مدارک قانونی، اطلاعات پزشکی)، اجرای مدل بهصورت محلی یا روی سرور خودت به شدت امنتره تا فرستادن همه چیز به OpenAI.
۲. بدون تحریم — مدلهای ابری خارجی برای IP ایران مشکل دارن. یه مدل محلی مثل Dorna نیازی به VPN یا پیمانکار ندارن.
PartAI و آیندهٔ AI ایرانی
PartAI تنها شرکت در این فضا نیست — رقبایی مثل PersianMind هم وجود دارن — اما از معدود تیمهاییه که کارش با کد باز قابل تأیید مستقله. در شرایطی که بودجهٔ آموزش مدل بزرگ از صفر برای اکثر تیمهای ایرانی در دسترس نیست، رویکرد fine-tuning روی مدلهای open-weight یه انتخاب عملیه.
همچنین بخوان
ادامهٔ مسیر
همهٔ مقالهها ←
مدل زبانی فارسی چیست
مدل زبانی فارسی چیست — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

PersianMind
PersianMind — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

ParsBERT
ParsBERT — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Llama fine-tuning برای فارسی
Llama fine-tuning برای فارسی — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.