بنچمارکهای فارسی — PersianBench و ParsiNLU
بنچمارکهای فارسی — PersianBench و ParsiNLU — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

وقتی کسی ادعا میکنه مدلش «فارسی رو خوب میفهمه»، چطور میفهمی راسته؟ جواب: بنچمارک. بنچمارکهای فارسی یه معیار مشترک هستن که با اونا میشه مدلهای مختلف رو روی وظایف یکسان مقایسه کرد. دو مجموعه داده که بیشتر از بقیه در تحقیقات NLP فارسی ذکر میشن ParsiNLU و ParsBench هستن.
بنچمارک چیه و چرا مهمه؟
فرض کن دو مدل داری — یکی ایرانی، یکی چندزبانه. هر دو ادعا میکنن فارسی خوبی دارن. چطور مقایسه میکنی؟
بنچمارک یه مجموعه سوالوجواب استانداردشدهست که:
- سوالات آن از قبل تعیین شدن
- جواب صحیح مشخصه
- هر مدل همون سوالات رو میگیره
- نتیجه بهصورت عدد (accuracy، F1 score و...) قابل مقایسهست
بدون بنچمارک، مقایسهٔ مدلها سلیقهای میشه. با بنچمارک، میشه گفت «مدل A روی وظیفهٔ خاص X، عدد Y گرفت — بهتر از مدل B.»
ParsiNLU: اولین بنچمارک جامع فارسی
ParsiNLU در سال ۲۰۲۰ توسط یه تیم تحقیقاتی با همکاری محققان ایرانی و غیرایرانی معرفی شد و مقالهاش در ۲۰۲۱ منتشر شد. اولین مجموعهٔ جامع برای سنجش درک زبان طبیعی فارسیه.
وظایف ParsiNLU
ParsiNLU چند دستهٔ مختلف داره:
۱. خواندن و درک مطلب (Reading Comprehension) مدل یه پاراگراف فارسی میگیره و باید از روی اون به سوال جواب بده. مجموعهٔ آزمونی ۵۷۰ جفت پاراگراف-سوال داره.
۲. استنتاج متنی (Textual Entailment) دو جمله داده میشه. مدل باید تشخیص بده آیا جملهٔ دوم از جملهٔ اول نتیجه میشه، با آن تناقض داره، یا ربطی نداره.
۳. دانش عمومی (Common Knowledge) سوالات چهارجوابی از دانش عمومی — ادبیات، تاریخ، علوم — به فارسی.
۴. دانش ادبی (Literature) سوالاتی از متون کلاسیک فارسی که درک عمیقتری لازم دارن.
۵. استدلال ریاضی (Math) مسائل ریاضی کلامی فارسی.
چرا ParsiNLU مهمه؟
قبل از ParsiNLU، ارزیابی مدلهای فارسی کاملاً نامنظم بود — هر تیم روی دادههای خودش تست میکرد. ParsiNLU یه زبان مشترک برای مقایسه ایجاد کرد و حالا در اغلب مقالات NLP فارسی بهعنوان baseline ذکر میشه.
ParsBench: ابزار جدیدتر برای ارزیابی LLMها
ParsBench در ۲۰۲۵ معرفی شد — یه toolkit که برای ارزیابی مدلهای زبانی بزرگ (LLM) به فارسی طراحی شده. تفاوتش با ParsiNLU اینه که ParsiNLU بیشتر برای مدلهای کوچکتر NLP بود، اما ParsBench با GPT-style و Llama-style مدلها کار میکنه.
مخزن GitHub: ParsBench/ParsBench
persian-nlp-benchmark: ابتکار Mofid AI
یه مجموعه دیگه که باید ازش بدونی، persian-nlp-benchmark ساختهٔ Mofid AIه — یه ابزار برای مقایسهٔ وظایف مختلف NLP فارسی با هم. این پروژه روی GitHub در دسترسه (Mofid-AI/persian-nlp-benchmark).
FaMTEB: بنچمارک embedding فارسی
جدیدترین اضافه به اکوسیستم بنچمارک فارسی، FaMTEB (Massive Text Embedding Benchmark in Persian) است که در EMNLP 2025 منتشر شد. این بنچمارک روی کیفیت embeddingهای فارسی تمرکز داره — یعنی اینکه یه مدل چقدر میتونه معنای جملات فارسی رو به شکل عددی نمایش بده. این برای سیستمهای جستجو و RAG فارسی خیلی مهمه.
چطور از بنچمارکها استفاده کنی؟
اگه توسعهدهنده هستی و میخوای انتخاب کنی کدوم مدل رو برای پروژهٔ فارسی استفاده کنی:
قدم اول: وظیفهٔ خودت رو مشخص کن — طبقهبندی متن؟ پاسخ به سوال؟ خلاصهسازی؟
قدم دوم: ببین کدوم بنچمارک اون وظیفه رو میسنجه — ParsiNLU برای درک، FaMTEB برای embedding.
قدم سوم: امتیاز مدلهای مختلف رو روی همون بنچمارک مقایسه کن — نه روی ادعاهای بازاریابی.
قدم چهارم: روی دادههای خودت هم آزمایش کن — بنچمارک عمومی همیشه با use case خاص یکسان نیست.
محدودیتهای بنچمارک
بنچمارکها معیار کاملی نیستن:
- Data contamination — ممکنه مدل قبلاً روی همون سوالهای بنچمارک آموزش دیده باشه
- Domain gap — مدلی که روی اخبار رسمی خوبه ممکنه روی چت محاورهای ضعیف باشه
- Benchmark gaming — بعضی مدلها برای خوب شدن در بنچمارک بهینه میشن، نه برای کاربرد واقعی
- فقدان بنچمارک محاوره — هنوز یه بنچمارک استاندارد برای کیفیت مکالمهٔ فارسی وجود نداره
اهمیت برای کاربر غیرتخصصی
اگه فقط میخوای از یه دستیار AI فارسی استفاده کنی، لازم نیست بنچمارکها رو بخونی. اما وقتی میبینی کسی ادعا میکنه «مدل ما بهترین فارسی رو داره»، یه سوال ساده بپرس: روی کدوم بنچمارک؟ با چه امتیازی؟ در مقایسه با کدوم مدلهای دیگه؟
اگه جواب مبهمه، احتمالاً پشتش عدد مستقلی نیست.
همچنین بخوان
ادامهٔ مسیر
همهٔ مقالهها ←
مدل زبانی فارسی چیست
مدل زبانی فارسی چیست — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

PartAI — مدل زبانی فارسی
PartAI — مدل زبانی فارسی — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

PersianMind
PersianMind — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

ParsBERT
ParsBERT — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.