LLM فارسی

دیتاست‌های متن فارسی

دیتاست‌های متن فارسی، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ تیم آیرا•۲۰ فروردین ۱۴۰۵به‌روزرسانی: ۳۱ فروردین ۱۴۰۵•۳ دقیقه مطالعه

وقتی از یه مدل زبانی می‌خوای فارسی بنویسه، درست استدلال کنه، یا حتی یه جمله را خوب تحلیل کنه، جواب ساده‌ای وجود داره: کیفیت دیتاستی که روش آموزش دیده. این مقاله نگاهی می‌ندازه به اینکه دقیقاً چه دیتاست‌هایی برای آموزش LLM فارسی وجود دارن، چرا این مسئله مهمه، و چالش‌های واقعی که محققان باهاشون دست‌وپنجه نرم می‌کنن.

چرا دیتاست فارسی مستقل لازم داریم؟

فارسی حدود ۱۱۰ میلیون گوینده داره، اما توی دیتاست‌های بزرگ چندزبانه مثل Common Crawl، سهم فارسی نسبت به انگلیسی ناچیزه. این یعنی مدل‌هایی که فقط روی داده‌های عمومی وب آموزش دیدن، در فارسی ضعیف‌ترن: جمله‌های دستوری ناقص می‌سازن، اشتباهات دیکته دارن، و بدتر از همه، مفاهیم فرهنگی و محاوره‌ای فارسی رو نمی‌فهمن.

برای ساختن یه LLM فارسی واقعی، یا حتی fine-tune کردن یه مدل موجود، به دیتاست اختصاصی فارسی نیاز داری.

دیتاست‌های اصلی موجود

CC-100 Persian

یکی از پایه‌ای‌ترین دیتاست‌هاست که از اسنپ‌شات‌های Common Crawl سال ۲۰۱۸ ساخته شده. حجمش حدود ۲۰ گیگابایت متن فارسی‌ست. نقطهٔ قوتش در دسترس بودن و حجم معقولشه؛ نقطهٔ ضعفش اینه که داده‌های وبی کثیف هستن، پر از لینک، اسپم، و متن‌های بی‌کیفیت.

OSCAR (Open Super-large Crawled Aggregated Resource)

نسخه‌های اخیر OSCAR بخش فارسی خوبی دارن: حدود ۲۳ میلیون سند، ۹۳ گیگابایت، نزدیک به ۹ میلیارد توکن. این دیتاست از فیلترهای بهتری نسبت به CC-100 عبور داده شده و برای pre-training گزینهٔ محبوبیه.

mC4 فارسی

mC4 که توسط گوگل برای آموزش مدل‌های چندزبانه منتشر شده، بخش فارسی‌اش حدود ۶۰۰ گیگابایت داره. البته حجم زیاد لزوماً به معنای کیفیت بالا نیست.

Matina، کرپوس ۷۳ میلیارد توکنی

جدیدترین و بزرگ‌ترین دیتاست فارسی در زمان نوشتن این مقاله، Matina‌ست که در اوایل ۲۰۲۵ معرفی شد. این دیتاست ۷۲.۹ میلیارد توکن متن فارسی داره که مرحلهٔ preprocessing و deduplication دقیقی روش انجام شده. برای اولین بار می‌شه گفت یه دیتاست فارسی در مقیاس قابل رقابت با دیتاست‌های انگلیسی وجود داره.

دیتاست‌های تخصصی

کنار دیتاست‌های عمومی، چند مجموعهٔ تخصصی هم ساخته شدن:

PersianNLU / ParsiNLU: برای ارزیابی و آموزش مهارت‌های درک متن
SQuAD فارسی: نسخهٔ ترجمه‌شده و بومی‌سازی‌شده برای پرسش-پاسخ
Persian Twitter/Social Media corpora: برای فهم زبان محاوره‌ای و لهجه‌ها
PerSoMed: دیتاست متن شبکه‌های اجتماعی فارسی برای تشخیص احساسات

چالش‌های اصلی دیتاست فارسی

۱. تنوع نوشتاری

فارسی یه خط اقتباسی از عربی داره، اما حروف مخصوص خودش (پ، چ، ژ، گ) رو داره. مشکل اینجاست که نوشتن همین حروف در سیستم‌های مختلف فرق می‌کنه، مثلاً «ک» عربی و «ک» فارسی از نظر یونیکد دو کد متفاوتن. خیلی از متن‌های اینترنتی این دو رو قاطی می‌کنن، که یعنی باید normalization دقیق انجام بدی.

۲. چسبیدن کلمات

فارسی یه زبان پیوندی‌ست. پیشوند «می» یا پسوند «ها» می‌تونن به کلمه بچسبن یا جدا بنویسمشون، هر دو درسته. این ابهام tokenization رو سخت‌تر می‌کنه و به این معناست که یه مدل باید بتونه هر دو فرم رو بشناسه.

۳. کمبود دیتای با‌کیفیت در حوزه‌های تخصصی

متن پزشکی، حقوقی، مهندسی یا علمی فارسی خیلی کم توی دیتاست‌های آزاد وجود داره. این یعنی LLM‌های فارسی معمولاً در پرسش‌های تخصصی ضعیف‌ترن.

۴. داده‌های فیلترشده یا سانسورشده

بخش قابل توجهی از تولید محتوای فارسی در ایران تحت محدودیت‌های اینترنتیه. این یعنی Common Crawl نمی‌تونه خیلی از منابع فارسی رو ایندکس کنه و دیتاست‌های وبی تصویر کاملی از زبان روزمرهٔ فارسی‌زبان‌ها ندارن.

چرا این به کاربر ایرانی مربوطه؟

شاید بگی «من که LLM آموزش نمی‌دم، این به من چه ربطی داره؟» جواب ساده‌ست: کیفیت دیتاست مستقیماً روی تجربهٔ تو تأثیر می‌ذاره.

وقتی یه chatbot فارسی به سؤالت اشتباه جواب می‌ده، یا وقتی یه مدل کد می‌نویسه و کامنت‌هاش فارسی بی‌معناست، یا وقتی خلاصه‌ای که AI می‌ده کلمات رو قطع می‌کنه، ریشهٔ همهٔ اینا معمولاً به دیتاست برمی‌گرده. مدل اگه متن خوب فارسی ندیده باشه، نمی‌تونه خوب فارسی تولید کنه.

آیندهٔ دیتاست‌های فارسی

Matina نشون داد که ساختن دیتاست‌های بزرگ فارسی ممکنه. تمرکز بعدی احتمالاً روی کیفیت خواهد بود، نه فقط کمیت:

دیتاست‌های دستورالعمل (instruction tuning) فارسی که با دقت کیوریت شدن
دیتاست‌های ارزیابی (benchmark) بومی‌تر برای فارسی
متن‌های تخصصی در حوزه‌های پزشکی، فنی و علمی

با پیشرفت این حوزه، LLM‌های فارسی هم بهتر می‌شن، و این مستقیماً به نفع هر کاربر فارسی‌زبانه.

همچنین بخوان

#LLM فارسی

ادامهٔ مسیر

همهٔ مقاله‌ها ←

LLM فارسی

مدل زبانی فارسی چیست

مدل زبانی فارسی چیست، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LLM فارسی

PartAI، مدل زبانی فارسی

PartAI، مدل زبانی فارسی، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LLM فارسی

PersianMind

PersianMind، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LLM فارسی

ParsBERT

ParsBERT، راهنمای فارسی از مجموعهٔ «LLM فارسی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

چرا دیتاست فارسی مستقل لازم داریم؟

دیتاست‌های اصلی موجود

CC-100 Persian

OSCAR (Open Super-large Crawled Aggregated Resource)

mC4 فارسی

Matina، کرپوس ۷۳ میلیارد توکنی

دیتاست‌های تخصصی

چالش‌های اصلی دیتاست فارسی

۱. تنوع نوشتاری

۲. چسبیدن کلمات

۳. کمبود دیتای با‌کیفیت در حوزه‌های تخصصی

۴. داده‌های فیلترشده یا سانسورشده

چرا این به کاربر ایرانی مربوطه؟

آیندهٔ دیتاست‌های فارسی

همچنین بخوان

ادامهٔ مسیر

مدل زبانی فارسی چیست

PartAI، مدل زبانی فارسی

PersianMind

ParsBERT

بیشتر در «LLM فارسی»