دیتاستهای متن فارسی
دیتاستهای متن فارسی — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

وقتی از یه مدل زبانی میخوای فارسی بنویسه، درست استدلال کنه، یا حتی یه جمله را خوب تحلیل کنه، جواب سادهای وجود داره: کیفیت دیتاستی که روش آموزش دیده. این مقاله نگاهی میندازه به اینکه دقیقاً چه دیتاستهایی برای آموزش LLM فارسی وجود دارن، چرا این مسئله مهمه، و چالشهای واقعی که محققان باهاشون دستوپنجه نرم میکنن.
چرا دیتاست فارسی مستقل لازم داریم؟
فارسی حدود ۱۱۰ میلیون گوینده داره — اما توی دیتاستهای بزرگ چندزبانه مثل Common Crawl، سهم فارسی نسبت به انگلیسی ناچیزه. این یعنی مدلهایی که فقط روی دادههای عمومی وب آموزش دیدن، در فارسی ضعیفترن: جملههای دستوری ناقص میسازن، اشتباهات دیکته دارن، و بدتر از همه، مفاهیم فرهنگی و محاورهای فارسی رو نمیفهمن.
برای ساختن یه LLM فارسی واقعی — یا حتی fine-tune کردن یه مدل موجود — به دیتاست اختصاصی فارسی نیاز داری.
دیتاستهای اصلی موجود
CC-100 Persian
یکی از پایهایترین دیتاستهاست که از اسنپشاتهای Common Crawl سال ۲۰۱۸ ساخته شده. حجمش حدود ۲۰ گیگابایت متن فارسیست. نقطهٔ قوتش در دسترس بودن و حجم معقولشه؛ نقطهٔ ضعفش اینه که دادههای وبی کثیف هستن — پر از لینک، اسپم، و متنهای بیکیفیت.
OSCAR (Open Super-large Crawled Aggregated Resource)
نسخههای اخیر OSCAR بخش فارسی خوبی دارن: حدود ۲۳ میلیون سند، ۹۳ گیگابایت، نزدیک به ۹ میلیارد توکن. این دیتاست از فیلترهای بهتری نسبت به CC-100 عبور داده شده و برای pre-training گزینهٔ محبوبیه.
mC4 فارسی
mC4 که توسط گوگل برای آموزش مدلهای چندزبانه منتشر شده، بخش فارسیاش حدود ۶۰۰ گیگابایت داره. البته حجم زیاد لزوماً به معنای کیفیت بالا نیست.
Matina — کرپوس ۷۳ میلیارد توکنی
جدیدترین و بزرگترین دیتاست فارسی در زمان نوشتن این مقاله، Matinaست که در اوایل ۲۰۲۵ معرفی شد. این دیتاست ۷۲.۹ میلیارد توکن متن فارسی داره که مرحلهٔ preprocessing و deduplication دقیقی روش انجام شده. برای اولین بار میشه گفت یه دیتاست فارسی در مقیاس قابل رقابت با دیتاستهای انگلیسی وجود داره.
دیتاستهای تخصصی
کنار دیتاستهای عمومی، چند مجموعهٔ تخصصی هم ساخته شدن:
- PersianNLU / ParsiNLU: برای ارزیابی و آموزش مهارتهای درک متن
- SQuAD فارسی: نسخهٔ ترجمهشده و بومیسازیشده برای پرسش-پاسخ
- Persian Twitter/Social Media corpora: برای فهم زبان محاورهای و لهجهها
- PerSoMed: دیتاست متن شبکههای اجتماعی فارسی برای تشخیص احساسات
چالشهای اصلی دیتاست فارسی
۱. تنوع نوشتاری
فارسی یه خط اقتباسی از عربی داره، اما حروف مخصوص خودش (پ، چ، ژ، گ) رو داره. مشکل اینجاست که نوشتن همین حروف در سیستمهای مختلف فرق میکنه — مثلاً «ک» عربی و «ک» فارسی از نظر یونیکد دو کد متفاوتن. خیلی از متنهای اینترنتی این دو رو قاطی میکنن، که یعنی باید normalization دقیق انجام بدی.
۲. چسبیدن کلمات
فارسی یه زبان پیوندیست. پیشوند «می» یا پسوند «ها» میتونن به کلمه بچسبن یا جدا بنویسمشون — هر دو درسته. این ابهام tokenization رو سختتر میکنه و به این معناست که یه مدل باید بتونه هر دو فرم رو بشناسه.
۳. کمبود دیتای باکیفیت در حوزههای تخصصی
متن پزشکی، حقوقی، مهندسی یا علمی فارسی خیلی کم توی دیتاستهای آزاد وجود داره. این یعنی LLMهای فارسی معمولاً در پرسشهای تخصصی ضعیفترن.
۴. دادههای فیلترشده یا سانسورشده
بخش قابل توجهی از تولید محتوای فارسی در ایران تحت محدودیتهای اینترنتیه. این یعنی Common Crawl نمیتونه خیلی از منابع فارسی رو ایندکس کنه و دیتاستهای وبی تصویر کاملی از زبان روزمرهٔ فارسیزبانها ندارن.
چرا این به کاربر ایرانی مربوطه؟
شاید بگی «من که LLM آموزش نمیدم، این به من چه ربطی داره؟» جواب سادهست: کیفیت دیتاست مستقیماً روی تجربهٔ تو تأثیر میذاره.
وقتی یه chatbot فارسی به سؤالت اشتباه جواب میده، یا وقتی یه مدل کد مینویسه و کامنتهاش فارسی بیمعناست، یا وقتی خلاصهای که AI میده کلمات رو قطع میکنه — ریشهٔ همهٔ اینا معمولاً به دیتاست برمیگرده. مدل اگه متن خوب فارسی ندیده باشه، نمیتونه خوب فارسی تولید کنه.
آیندهٔ دیتاستهای فارسی
Matina نشون داد که ساختن دیتاستهای بزرگ فارسی ممکنه. تمرکز بعدی احتمالاً روی کیفیت خواهد بود، نه فقط کمیت:
- دیتاستهای دستورالعمل (instruction tuning) فارسی که با دقت کیوریت شدن
- دیتاستهای ارزیابی (benchmark) بومیتر برای فارسی
- متنهای تخصصی در حوزههای پزشکی، فنی و علمی
با پیشرفت این حوزه، LLMهای فارسی هم بهتر میشن — و این مستقیماً به نفع هر کاربر فارسیزبانه.
همچنین بخوان
ادامهٔ مسیر
همهٔ مقالهها ←
مدل زبانی فارسی چیست
مدل زبانی فارسی چیست — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

PartAI — مدل زبانی فارسی
PartAI — مدل زبانی فارسی — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

PersianMind
PersianMind — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

ParsBERT
ParsBERT — راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.