LLM فارسی

بنچمارک‌های فارسی — PersianBench و ParsiNLU

بنچمارک‌های فارسی — PersianBench و ParsiNLU — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ بنچمارک‌های فارسی — PersianBench و ParsiNLU

وقتی کسی ادعا می‌کنه مدلش «فارسی رو خوب می‌فهمه»، چطور می‌فهمی راسته؟ جواب: بنچمارک. بنچمارک‌های فارسی یه معیار مشترک هستن که با اونا می‌شه مدل‌های مختلف رو روی وظایف یکسان مقایسه کرد. دو مجموعه داده که بیشتر از بقیه در تحقیقات NLP فارسی ذکر می‌شن ParsiNLU و ParsBench هستن.

بنچمارک چیه و چرا مهمه؟

فرض کن دو مدل داری — یکی ایرانی، یکی چندزبانه. هر دو ادعا می‌کنن فارسی خوبی دارن. چطور مقایسه می‌کنی؟

بنچمارک یه مجموعه سوال‌وجواب استانداردشده‌ست که:

  • سوالات آن از قبل تعیین شدن
  • جواب صحیح مشخصه
  • هر مدل همون سوالات رو می‌گیره
  • نتیجه به‌صورت عدد (accuracy، F1 score و...) قابل مقایسه‌ست

بدون بنچمارک، مقایسه‌ٔ مدل‌ها سلیقه‌ای می‌شه. با بنچمارک، می‌شه گفت «مدل A روی وظیفهٔ خاص X، عدد Y گرفت — بهتر از مدل B.»

ParsiNLU: اولین بنچمارک جامع فارسی

ParsiNLU در سال ۲۰۲۰ توسط یه تیم تحقیقاتی با همکاری محققان ایرانی و غیرایرانی معرفی شد و مقاله‌اش در ۲۰۲۱ منتشر شد. اولین مجموعهٔ جامع برای سنجش درک زبان طبیعی فارسیه.

وظایف ParsiNLU

ParsiNLU چند دستهٔ مختلف داره:

۱. خواندن و درک مطلب (Reading Comprehension) مدل یه پاراگراف فارسی می‌گیره و باید از روی اون به سوال جواب بده. مجموعهٔ آزمونی ۵۷۰ جفت پاراگراف-سوال داره.

۲. استنتاج متنی (Textual Entailment) دو جمله داده می‌شه. مدل باید تشخیص بده آیا جملهٔ دوم از جملهٔ اول نتیجه می‌شه، با آن تناقض داره، یا ربطی نداره.

۳. دانش عمومی (Common Knowledge) سوالات چهارجوابی از دانش عمومی — ادبیات، تاریخ، علوم — به فارسی.

۴. دانش ادبی (Literature) سوالاتی از متون کلاسیک فارسی که درک عمیق‌تری لازم دارن.

۵. استدلال ریاضی (Math) مسائل ریاضی کلامی فارسی.

چرا ParsiNLU مهمه؟

قبل از ParsiNLU، ارزیابی مدل‌های فارسی کاملاً نامنظم بود — هر تیم روی داده‌های خودش تست می‌کرد. ParsiNLU یه زبان مشترک برای مقایسه ایجاد کرد و حالا در اغلب مقالات NLP فارسی به‌عنوان baseline ذکر می‌شه.

ParsBench: ابزار جدیدتر برای ارزیابی LLMها

ParsBench در ۲۰۲۵ معرفی شد — یه toolkit که برای ارزیابی مدل‌های زبانی بزرگ (LLM) به فارسی طراحی شده. تفاوتش با ParsiNLU اینه که ParsiNLU بیشتر برای مدل‌های کوچک‌تر NLP بود، اما ParsBench با GPT-style و Llama-style مدل‌ها کار می‌کنه.

مخزن GitHub: ParsBench/ParsBench

persian-nlp-benchmark: ابتکار Mofid AI

یه مجموعه دیگه که باید ازش بدونی، persian-nlp-benchmark ساخته‌ٔ Mofid AIه — یه ابزار برای مقایسهٔ وظایف مختلف NLP فارسی با هم. این پروژه روی GitHub در دسترسه (Mofid-AI/persian-nlp-benchmark).

FaMTEB: بنچمارک embedding فارسی

جدیدترین اضافه به اکوسیستم بنچمارک فارسی، FaMTEB (Massive Text Embedding Benchmark in Persian) است که در EMNLP 2025 منتشر شد. این بنچمارک روی کیفیت embedding‌های فارسی تمرکز داره — یعنی اینکه یه مدل چقدر می‌تونه معنای جملات فارسی رو به شکل عددی نمایش بده. این برای سیستم‌های جستجو و RAG فارسی خیلی مهمه.

چطور از بنچمارک‌ها استفاده کنی؟

اگه توسعه‌دهنده هستی و می‌خوای انتخاب کنی کدوم مدل رو برای پروژهٔ فارسی استفاده کنی:

قدم اول: وظیفهٔ خودت رو مشخص کن — طبقه‌بندی متن؟ پاسخ به سوال؟ خلاصه‌سازی؟

قدم دوم: ببین کدوم بنچمارک اون وظیفه رو می‌سنجه — ParsiNLU برای درک، FaMTEB برای embedding.

قدم سوم: امتیاز مدل‌های مختلف رو روی همون بنچمارک مقایسه کن — نه روی ادعاهای بازاریابی.

قدم چهارم: روی داده‌های خودت هم آزمایش کن — بنچمارک عمومی همیشه با use case خاص یکسان نیست.

محدودیت‌های بنچمارک

بنچمارک‌ها معیار کاملی نیستن:

  • Data contamination — ممکنه مدل قبلاً روی همون سوال‌های بنچمارک آموزش دیده باشه
  • Domain gap — مدلی که روی اخبار رسمی خوبه ممکنه روی چت محاوره‌ای ضعیف باشه
  • Benchmark gaming — بعضی مدل‌ها برای خوب شدن در بنچمارک بهینه می‌شن، نه برای کاربرد واقعی
  • فقدان بنچمارک محاوره — هنوز یه بنچمارک استاندارد برای کیفیت مکالمهٔ فارسی وجود نداره

اهمیت برای کاربر غیرتخصصی

اگه فقط می‌خوای از یه دستیار AI فارسی استفاده کنی، لازم نیست بنچمارک‌ها رو بخونی. اما وقتی می‌بینی کسی ادعا می‌کنه «مدل ما بهترین فارسی رو داره»، یه سوال ساده بپرس: روی کدوم بنچمارک؟ با چه امتیازی؟ در مقایسه با کدوم مدل‌های دیگه؟

اگه جواب مبهمه، احتمالاً پشتش عدد مستقلی نیست.

همچنین بخوان

#LLM فارسی

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «LLM فارسی»