RLHF — آموزش با بازخورد انسانی
RLHF — آموزش با بازخورد انسانی — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

ChatGPT در نوامبر ۲۰۲۲ منتشر شد و دنیا را شوکه کرد. نه به خاطر اینکه مدل زبانی بزرگ بود — GPT-3 از ۲۰۲۰ وجود داشت. بلکه به خاطر اینکه جوابش طبیعی، مفید، و ایمن بود. این تفاوت یه کلمه داشت: RLHF.
RLHF چیست؟
RLHF مخفف Reinforcement Learning from Human Feedback — یادگیری تقویتی از بازخورد انسانی. یه روش آموزشه که مدل رو یاد میده نه فقط «چه چیزی درسته» بلکه «چه چیزی انسانها ترجیح میدن».
قبل از RLHF، مدلهای زبانی با هدف سادهای آموزش میدیدن: «کلمه بعدی رو پیشبینی کن». این مدلها خوب بودن ولی گاهی جوابهای مضر، بیربط، یا خطرناک میدادن — چون «پیشبینی کلمه بعدی» با «جواب مفید دادن» فرق داره.
سه مرحله RLHF
مرحله ۱: Supervised Fine-Tuning (SFT)
اول یه تیم از متخصصان انسانی هزاران مثال از «گفتگوی خوب» مینویسن. مثلاً سوال میآد: «چطور کیک بپزم؟» و نویسنده انسانی یه جواب مفید، واضح، و ایمن مینویسه.
مدل پایه (مثلاً GPT-4 قبل از fine-tuning) روی این مثالها آموزش میبینه. نتیجه یه مدل اولیهست که «سبک» جوابدهی انسانی رو یاد گرفته.
مرحله ۲: آموزش Reward Model
اینجا جالب میشه. همون تیم انسانی یه کار متفاوت میکنن: به مدل چند جواب برای یه سوال میدن و میگن «کدوم بهتره؟»
مثلاً برای سوال «به من کمک کن یه ایمیل عصبانی بنویسم»، ممکنه دو جواب باشه:
- جواب A: یه ایمیل خیلی تهاجمی
- جواب B: توضیح میده که ایمیل عصبانی معمولاً نتیجهعکس داره و کمک میکنه ایمیل قاطعانهای بنویسه
ارزیابهای انسانی میگن جواب B بهتره. این ترجیحها برای آموزش یه مدل جداگانه به اسم Reward Model استفاده میشه — مدلی که یاد میگیره کدوم جوابها «بهتر» هستن.
مرحله ۳: تنظیم با RL (Reinforcement Learning)
حالا از reward model استفاده میکنیم تا مدل اصلی رو تنظیم کنیم. الگوریتم معروفی که OpenAI و Anthropic استفاده کردن PPO (Proximal Policy Optimization) بود. ایده سادهست:
- مدل یه جواب تولید میکنه
- Reward Model امتیاز میده
- مدل یاد میگیره جوابهایی بده که امتیاز بالاتری میگیرن
این حلقه هزاران بار تکرار میشه تا مدل به تدریج «بهتر» بشه — از دید انسانهای ارزیاب.
چرا RLHF مهم بود؟
قبل از RLHF، اگه میپرسیدی «چطور بمب بسازم؟»، بعضی مدلها جواب میدادن — چون در متون آموزشی این اطلاعات وجود داشت. RLHF مدل رو یاد داد که «میتونم جواب بدم» با «باید جواب بدم» فرق داره.
از طرف دیگه، RLHF مدلها رو «helpful» کرد. جواب «نمیدونم» همیشه ایمنه ولی مفید نیست. RLHF یاد داد که چطور مفید باشه بدون اینکه مضر بشه.
محدودیتها و انتقادها
Reward Hacking
مدل میتونه یاد بگیره «reward model رو فریب بده» به جای اینکه واقعاً بهتر بشه. مثلاً جوابهای طولانیتر، پر از تعریف و تمجید، معمولاً از ارزیابهای انسانی امتیاز بالاتری میگیرن — حتی اگه محتواشون ضعیفتر باشه. این «sycophancy» (چاپلوسی) یه مشکل شناختهشده در مدلهای RLHFشدهست.
Alignment Tax
بعضی وقتها RLHF باعث میشه مدل تواناییهای خام کمتری داشته باشه. این به «alignment tax» معروفه — هزینهای که برای ایمنتر کردن مدل پرداخت میشه.
سوگیری ارزیابها
ارزیابهای انسانی سوگیری دارن. اگه اکثر ارزیابها از یه پسزمینه فرهنگی خاص باشن، reward model اون سوگیریها رو یاد میگیره. این یه نگرانی جدی برای مدلهاییه که قرار است برای فرهنگهای مختلف، از جمله فارسیزبانها، مفید باشن.
هزینه بالا
ایجاد dataset با کیفیت برای RLHF گران و زمانبره. این یه مزیت رقابتی برای شرکتهای بزرگه که میتونن تیم بزرگ ارزیاب تشکیل بدن.
بعد از RLHF: تکامل روشها
RLHF نقطه پایان نبود؛ نقطه شروع یه حوزه تحقیقاتی بود. روشهایی که بعداً اومدن:
RLAIF (RL from AI Feedback): به جای ارزیابهای انسانی، از یه مدل AI دیگه برای تولید feedback استفاده میشه. Anthropic این رویکرد رو با Constitutional AI ترکیب کرد. هزینه کمتره ولی ممکنه سوگیریهای AI ارزیاب منتقل بشه.
DPO (Direct Preference Optimization): یه روش ریاضی که مرحله RL رو حذف میکنه و مستقیم از دادههای ترجیحی مدل رو تنظیم میکنه. سادهتر و پایدارتره. خیلی از مدلهای جدید از DPO به جای RLHF استفاده میکنن.
GRPO: روشی که DeepSeek در مدلهای R-series استفاده کرد — بهینهسازی reward group-based که برای استدلال خیلی موثر بوده.
ربط به فارسی
یه چالش مهم برای فارسیزبانان: دادههای RLHF برای مدلهای بزرگ عمدتاً انگلیسیاند. این یعنی reward model بر اساس ترجیحات ارزیابهای انگلیسیزبان ساخته شده. نتیجه؟ رفتار مدل وقتی فارسی صحبت میکنه ممکنه کمی متفاوت از نسخه انگلیسیش باشه.
این موضوع چالش مدلهای فارسیه: نه فقط باید آموزش زبانی کافی ببینن، بلکه باید RLHF با ارزیابهای فارسیزبان هم داشته باشن تا رفتارشون با فرهنگ و نیازهای کاربر ایرانی همخوانی داشته باشه. جزئیات بیشتر در این مقاله.
یه نکته پایانی
RLHF در عمل یعنی مدلهای زبانی که امروز باهاشون کار میکنیم، نه فقط «چی درسته» میدونن — بلکه «چی مفیده» هم یاد گرفتن. این تفاوت ظریف ولی اساسیه. یه مدل بدون RLHF مثل یه دانشمند پر از دانشه که بلد نیست با آدمها صحبت کنه؛ مدل RLHFشده هم دانش داره هم ارتباط.
و این همون زیربنایی که مدلهایی مثل آیراچت روی اون میسازن — البته با یه لایه اضافه: شناخت پیوسته که مدل نه فقط مفید باشه بلکه تو رو بشناسه.
همچنین بخوان
ادامهٔ مسیر
همهٔ مقالهها ←
هوش مصنوعی چیست؟ راهنمای کامل فارسی برای شروع در ۱۴۰۵
هوش مصنوعی به زبان ساده: تاریخچه، انواع، مدلهای زبانی بزرگ، شبکههای عصبی و چرا ۱۴۰۵ نقطهٔ عطف کاربر فارسیزبان است.

LLM چیست؟ راهنمای فارسی مدلهای زبانی بزرگ
LLM چیست؟ راهنمای فارسی مدلهای زبانی بزرگ — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر
شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

یادگیری ماشین چیست؟
یادگیری ماشین چیست؟ — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.
بیشتر در «هوش مصنوعی»
- یادگیری عمیق چیست؟
- پردازش زبان طبیعی (NLP) چیست؟
- ترنسفورمر چیست؟ معماری انقلابی LLMها
- تاریخچهٔ هوش مصنوعی — از تورینگ تا GPT-5
- اخلاق در هوش مصنوعی
- AGI، ASI و ANI — انواع هوش مصنوعی به زبان ساده
- انواع هوش مصنوعی
- آیندهٔ هوش مصنوعی
- RAG چیست؟ ترکیب بازیابی و تولید در LLM
- Embedding چیست؟ نمایش معنایی متن در فضای برداری
- Fine-tuning چیست؟
- توهم در هوش مصنوعی — چرا AI دروغ میسازد
- Prompt injection و امنیت LLM
- AI alignment و safety به زبان ساده
- تأثیر هوش مصنوعی بر کار و مشاغل
- تأثیر هوش مصنوعی بر آموزش
- هوش مصنوعی و مغز انسان
- مکانیزم Attention در ترنسفورمر
- هوش مصنوعی open source در مقابل closed source
- Quantization و فشردهسازی مدلها
- هوش مصنوعی چندوجهی (Multimodal AI)