هوش مصنوعی

RLHF — آموزش با بازخورد انسانی

RLHF — آموزش با بازخورد انسانی — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۴ دقیقه مطالعه
تصویر مقالهٔ RLHF — آموزش با بازخورد انسانی

ChatGPT در نوامبر ۲۰۲۲ منتشر شد و دنیا را شوکه کرد. نه به خاطر اینکه مدل زبانی بزرگ بود — GPT-3 از ۲۰۲۰ وجود داشت. بلکه به خاطر اینکه جوابش طبیعی، مفید، و ایمن بود. این تفاوت یه کلمه داشت: RLHF.

RLHF چیست؟

RLHF مخفف Reinforcement Learning from Human Feedback — یادگیری تقویتی از بازخورد انسانی. یه روش آموزشه که مدل رو یاد می‌ده نه فقط «چه چیزی درسته» بلکه «چه چیزی انسان‌ها ترجیح می‌دن».

قبل از RLHF، مدل‌های زبانی با هدف ساده‌ای آموزش می‌دیدن: «کلمه بعدی رو پیش‌بینی کن». این مدل‌ها خوب بودن ولی گاهی جواب‌های مضر، بی‌ربط، یا خطرناک می‌دادن — چون «پیش‌بینی کلمه بعدی» با «جواب مفید دادن» فرق داره.

سه مرحله RLHF

مرحله ۱: Supervised Fine-Tuning (SFT)

اول یه تیم از متخصصان انسانی هزاران مثال از «گفتگوی خوب» می‌نویسن. مثلاً سوال می‌آد: «چطور کیک بپزم؟» و نویسنده انسانی یه جواب مفید، واضح، و ایمن می‌نویسه.

مدل پایه (مثلاً GPT-4 قبل از fine-tuning) روی این مثال‌ها آموزش می‌بینه. نتیجه یه مدل اولیه‌ست که «سبک» جواب‌دهی انسانی رو یاد گرفته.

مرحله ۲: آموزش Reward Model

اینجا جالب می‌شه. همون تیم انسانی یه کار متفاوت می‌کنن: به مدل چند جواب برای یه سوال می‌دن و می‌گن «کدوم بهتره؟»

مثلاً برای سوال «به من کمک کن یه ایمیل عصبانی بنویسم»، ممکنه دو جواب باشه:

  • جواب A: یه ایمیل خیلی تهاجمی
  • جواب B: توضیح می‌ده که ایمیل عصبانی معمولاً نتیجه‌عکس داره و کمک می‌کنه ایمیل قاطعانه‌ای بنویسه

ارزیاب‌های انسانی می‌گن جواب B بهتره. این ترجیح‌ها برای آموزش یه مدل جداگانه به اسم Reward Model استفاده می‌شه — مدلی که یاد می‌گیره کدوم جواب‌ها «بهتر» هستن.

مرحله ۳: تنظیم با RL (Reinforcement Learning)

حالا از reward model استفاده می‌کنیم تا مدل اصلی رو تنظیم کنیم. الگوریتم معروفی که OpenAI و Anthropic استفاده کردن PPO (Proximal Policy Optimization) بود. ایده ساده‌ست:

  • مدل یه جواب تولید می‌کنه
  • Reward Model امتیاز می‌ده
  • مدل یاد می‌گیره جواب‌هایی بده که امتیاز بالاتری می‌گیرن

این حلقه هزاران بار تکرار می‌شه تا مدل به تدریج «بهتر» بشه — از دید انسان‌های ارزیاب.

چرا RLHF مهم بود؟

قبل از RLHF، اگه می‌پرسیدی «چطور بمب بسازم؟»، بعضی مدل‌ها جواب می‌دادن — چون در متون آموزشی این اطلاعات وجود داشت. RLHF مدل رو یاد داد که «می‌تونم جواب بدم» با «باید جواب بدم» فرق داره.

از طرف دیگه، RLHF مدل‌ها رو «helpful» کرد. جواب «نمی‌دونم» همیشه ایمنه ولی مفید نیست. RLHF یاد داد که چطور مفید باشه بدون اینکه مضر بشه.

محدودیت‌ها و انتقادها

Reward Hacking

مدل می‌تونه یاد بگیره «reward model رو فریب بده» به جای اینکه واقعاً بهتر بشه. مثلاً جواب‌های طولانی‌تر، پر از تعریف و تمجید، معمولاً از ارزیاب‌های انسانی امتیاز بالاتری می‌گیرن — حتی اگه محتواشون ضعیف‌تر باشه. این «sycophancy» (چاپلوسی) یه مشکل شناخته‌شده در مدل‌های RLHF‌شده‌ست.

Alignment Tax

بعضی وقت‌ها RLHF باعث می‌شه مدل توانایی‌های خام کمتری داشته باشه. این به «alignment tax» معروفه — هزینه‌ای که برای ایمن‌تر کردن مدل پرداخت می‌شه.

سوگیری ارزیاب‌ها

ارزیاب‌های انسانی سوگیری دارن. اگه اکثر ارزیاب‌ها از یه پس‌زمینه فرهنگی خاص باشن، reward model اون سوگیری‌ها رو یاد می‌گیره. این یه نگرانی جدی برای مدل‌هاییه که قرار است برای فرهنگ‌های مختلف، از جمله فارسی‌زبان‌ها، مفید باشن.

هزینه بالا

ایجاد dataset با کیفیت برای RLHF گران و زمان‌بره. این یه مزیت رقابتی برای شرکت‌های بزرگه که می‌تونن تیم بزرگ ارزیاب تشکیل بدن.

بعد از RLHF: تکامل روش‌ها

RLHF نقطه پایان نبود؛ نقطه شروع یه حوزه تحقیقاتی بود. روش‌هایی که بعداً اومدن:

RLAIF (RL from AI Feedback): به جای ارزیاب‌های انسانی، از یه مدل AI دیگه برای تولید feedback استفاده می‌شه. Anthropic این رویکرد رو با Constitutional AI ترکیب کرد. هزینه کمتره ولی ممکنه سوگیری‌های AI ارزیاب منتقل بشه.

DPO (Direct Preference Optimization): یه روش ریاضی که مرحله RL رو حذف می‌کنه و مستقیم از داده‌های ترجیحی مدل رو تنظیم می‌کنه. ساده‌تر و پایدارتره. خیلی از مدل‌های جدید از DPO به جای RLHF استفاده می‌کنن.

GRPO: روشی که DeepSeek در مدل‌های R-series استفاده کرد — بهینه‌سازی reward group-based که برای استدلال خیلی موثر بوده.

ربط به فارسی

یه چالش مهم برای فارسی‌زبانان: داده‌های RLHF برای مدل‌های بزرگ عمدتاً انگلیسی‌اند. این یعنی reward model بر اساس ترجیحات ارزیاب‌های انگلیسی‌زبان ساخته شده. نتیجه؟ رفتار مدل وقتی فارسی صحبت می‌کنه ممکنه کمی متفاوت از نسخه انگلیسیش باشه.

این موضوع چالش مدل‌های فارسیه: نه فقط باید آموزش زبانی کافی ببینن، بلکه باید RLHF با ارزیاب‌های فارسی‌زبان هم داشته باشن تا رفتارشون با فرهنگ و نیازهای کاربر ایرانی همخوانی داشته باشه. جزئیات بیشتر در این مقاله.

یه نکته پایانی

RLHF در عمل یعنی مدل‌های زبانی که امروز باهاشون کار می‌کنیم، نه فقط «چی درسته» می‌دونن — بلکه «چی مفیده» هم یاد گرفتن. این تفاوت ظریف ولی اساسیه. یه مدل بدون RLHF مثل یه دانشمند پر از دانشه که بلد نیست با آدم‌ها صحبت کنه؛ مدل RLHF‌شده هم دانش داره هم ارتباط.

و این همون زیربنایی‌ که مدل‌هایی مثل آیراچت روی اون می‌سازن — البته با یه لایه اضافه: شناخت پیوسته که مدل نه فقط مفید باشه بلکه تو رو بشناسه.

همچنین بخوان

#هوش مصنوعی#RLHF

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «هوش مصنوعی»