کلاد

Constitutional AI — فلسفهٔ ایمنی Anthropic

Constitutional AI — فلسفهٔ ایمنی Anthropic — راهنمای فارسی از مجموعهٔ «کلاد» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ Constitutional AI — فلسفهٔ ایمنی Anthropic

وقتی اولین بار اسم «Constitutional AI» رو می‌شنوی، شاید فکر کنی یه اصطلاح فنی خشک برای تیم‌های تحقیقاتی‌ه. ولی این رویکرد — که Anthropic در سال ۲۰۲۲ معرفی کرد — پشت رفتار کلاد توی هر مکالمه‌ای که باهاش داری نشسته. بفهمیش و درک می‌کنی چرا کلاد گاهی «نه» می‌گه، و چرا این «نه» با GPT-4 فرق داره.

مشکلی که Constitutional AI حل می‌کنه

قبل از CAI، روش اصلی تنظیم رفتار مدل‌های زبانی، RLHF بود — یادگیری تقویتی از بازخورد انسانی. آدم‌های واقعی هزاران خروجی مدل رو ارزیابی می‌کردن و می‌گفتن کدوم بهتره. نتیجه؟ مدلی که یاد می‌گرفت «چی رو انسان‌ها دوست دارن بشنون» — نه لزوماً «چی درسته».

دو مشکل جدی این رویکرد:

  • مقیاس‌پذیری: برای هر نوع محتوا و فرهنگ و زبانی باید آدم‌های آموزش‌دیده استخدام کنی.
  • تناقض ارزشی: ارزیاب‌های مختلف با هم موافق نیستن. نتیجه‌اش یه مدل بی‌ثبات می‌شه که در موقعیت‌های مشابه رفتارهای متفاوت داره.

راه‌حل: یه «قانون اساسی» به جای آدم

ایده‌ٔ اصلی ساده‌ست: به جای استفاده از انسان‌ها برای قضاوت هر خروجی، یه مجموعه اصول مکتوب بنویس و از خود مدل بخواه بر اساس اون اصول روی خودش انتقاد کنه.

فرایند CAI دو مرحله داره:

مرحلهٔ اول — SL-CAI (Supervised Learning): مدل یه پاسخ اولیه تولید می‌کنه. بعد از خودش می‌پرسه: «آیا این پاسخ با اصل X تناقض داره؟» و پاسخ رو ویرایش می‌کنه. این چرخهٔ خودانتقادی چند بار تکرار می‌شه. نسخه‌های بازنویسی‌شده برای fine-tuning استفاده می‌شن.

مرحلهٔ دوم — RLAIF (RL from AI Feedback): به جای انسان، یه مدل دیگه (یا خود مدل) دو پاسخ رقیب رو مقایسه می‌کنه و می‌گه کدوم بیشتر با «قانون اساسی» همخوانی داره. این reward signal برای RL استفاده می‌شه.

قانون اساسی کلاد چی می‌گه؟

Anthropic اصول دقیق رو عمومی کرده. بخشی از این قانون اساسی از منابع شناخته‌شده‌ای مثل اعلامیهٔ جهانی حقوق بشر، اصول سازمان‌های بین‌المللی، و نوشته‌های فلسفی برگرفته شده. نمونه‌ای از اصول:

  • «ترجیح بده پاسخی بدی که کمتر آسیب می‌رسونه، حتی اگه کمتر مفید باشه»
  • «از محتوایی که قصد فریب یا دستکاری داره پرهیز کن»
  • «احترام به استقلال و آزادی کاربر رو با جلوگیری از آسیب توازن بزن»

این اصول صریحاً مکتوبه، نه پنهان توی یه مدل سیاه.

تفاوت عملی با GPT-4 در رفتار روزمره

اگه از هر دو مدل بخوای یه متن اقناعی بنویسن — مثلاً برای یه محصول — کلاد احتمالاً یادآوری می‌کنه که متن قراره برای چه مخاطبی باشه و آیا ادعاها دقیق‌اند. GPT-4 معمولاً مستقیم‌تر عمل می‌کنه.

این رفتار «محتاطانه‌تر» کلاد گاهی کاربران رو کلافه می‌کنه. ولی ریشه‌اش همینجاست: مدلی که آموزش دیده «نه» گفتن رو از روی اصول، نه فقط از روی الگو.

یه مثال عملی: اگه بپرسی «یه ایمیل بنویس که کاربر رو مجبور کنه روی لینک کلیک کنه»، کلاد می‌پرسه «مجبور کنه، یعنی ترغیب کنه یا فریب بده؟» — چون در قانون اساسیش، دستکاری و اقناع دو چیز متفاوتند.

محدودیت‌های واقعی

Constitutional AI جادو نیست. چند محدودیت جدی داره:

۱. قانون اساسی هنوز انسان‌ساخت‌ه: کسی باید تصمیم بگیره چه اصولی توش باشن. این انتخاب‌ها ارزشی هستن و قابل نقدند. Anthropic یه شرکت آمریکاییه با دیدگاه‌های خاص.

۲. مدل می‌تونه اصول رو اشتباه تفسیر کنه: به خصوص در موقعیت‌های پیچیده که اصول با هم تعارض دارن. مدل باید اولویت‌بندی کنه — و این اولویت‌بندی همیشه درست نیست.

۳. «جیلبریک» هنوز ممکنه: با prompt engineering کافی، هنوز می‌شه رفتارهایی از مدل گرفت که با قانون اساسیش ناسازگاره.

۴. فارسی و فرهنگ ایرانی: اصول کلاد عمدتاً با دیدگاه غربی نوشته شدن. برخی موقعیت‌های فرهنگی ایرانی ممکنه کلاد رو دچار سردرگمی کنه یا پاسخ‌های محتاطانه‌ٔ غیرضروری بگیره.

چرا این برای توسعه‌دهندهٔ ایرانی مهمه

اگه داری با API کلاد کار می‌کنی، فهم CAI کمکت می‌کنه:

  • System prompt بهتر بنویسی: اگه در system prompt اصولی بنویسی که با قانون اساسی کلاد همسو باشن، رفتار مدل پیش‌بینی‌پذیرتر می‌شه. اگه بخوای بریش، مدل مقاومت می‌کنه.
  • رفتارهای «عجیب» رو بفهمی: وقتی کلاد یه درخواست رو رد می‌کنه یا اضافه می‌کنه، معمولاً یه اصل مشخص پشتشه — نه یه باگ تصادفی.
  • محدودیت‌های واقعی رو از محدودیت‌های مصنوعی تشخیص بدی: بعضی محدودیت‌ها ذاتی CAI هستن؛ بعضی دیگه فقط نیاز به prompt مناسب دارن.

رابطهٔ CAI با Claude Sonnet و Opus

در نسخه‌های مختلف کلاد، همهٔ مدل‌ها از همون قانون اساسی پیروی می‌کنن — ولی مدل‌های بزرگ‌تر (Opus) بهتر می‌تونن اصول متعارض رو با هم توازن بدن و پاسخ‌های subtler بدن. Haiku سریع‌تره ولی گاهی تفسیرش از اصول، binary-تر (سیاه‌وسفیدتر) از Opus هست.

همچنین بخوان

#کلاد

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «کلاد»