Constitutional AI — فلسفهٔ ایمنی Anthropic
Constitutional AI — فلسفهٔ ایمنی Anthropic — راهنمای فارسی از مجموعهٔ «کلاد» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

وقتی اولین بار اسم «Constitutional AI» رو میشنوی، شاید فکر کنی یه اصطلاح فنی خشک برای تیمهای تحقیقاتیه. ولی این رویکرد — که Anthropic در سال ۲۰۲۲ معرفی کرد — پشت رفتار کلاد توی هر مکالمهای که باهاش داری نشسته. بفهمیش و درک میکنی چرا کلاد گاهی «نه» میگه، و چرا این «نه» با GPT-4 فرق داره.
مشکلی که Constitutional AI حل میکنه
قبل از CAI، روش اصلی تنظیم رفتار مدلهای زبانی، RLHF بود — یادگیری تقویتی از بازخورد انسانی. آدمهای واقعی هزاران خروجی مدل رو ارزیابی میکردن و میگفتن کدوم بهتره. نتیجه؟ مدلی که یاد میگرفت «چی رو انسانها دوست دارن بشنون» — نه لزوماً «چی درسته».
دو مشکل جدی این رویکرد:
- مقیاسپذیری: برای هر نوع محتوا و فرهنگ و زبانی باید آدمهای آموزشدیده استخدام کنی.
- تناقض ارزشی: ارزیابهای مختلف با هم موافق نیستن. نتیجهاش یه مدل بیثبات میشه که در موقعیتهای مشابه رفتارهای متفاوت داره.
راهحل: یه «قانون اساسی» به جای آدم
ایدهٔ اصلی سادهست: به جای استفاده از انسانها برای قضاوت هر خروجی، یه مجموعه اصول مکتوب بنویس و از خود مدل بخواه بر اساس اون اصول روی خودش انتقاد کنه.
فرایند CAI دو مرحله داره:
مرحلهٔ اول — SL-CAI (Supervised Learning): مدل یه پاسخ اولیه تولید میکنه. بعد از خودش میپرسه: «آیا این پاسخ با اصل X تناقض داره؟» و پاسخ رو ویرایش میکنه. این چرخهٔ خودانتقادی چند بار تکرار میشه. نسخههای بازنویسیشده برای fine-tuning استفاده میشن.
مرحلهٔ دوم — RLAIF (RL from AI Feedback): به جای انسان، یه مدل دیگه (یا خود مدل) دو پاسخ رقیب رو مقایسه میکنه و میگه کدوم بیشتر با «قانون اساسی» همخوانی داره. این reward signal برای RL استفاده میشه.
قانون اساسی کلاد چی میگه؟
Anthropic اصول دقیق رو عمومی کرده. بخشی از این قانون اساسی از منابع شناختهشدهای مثل اعلامیهٔ جهانی حقوق بشر، اصول سازمانهای بینالمللی، و نوشتههای فلسفی برگرفته شده. نمونهای از اصول:
- «ترجیح بده پاسخی بدی که کمتر آسیب میرسونه، حتی اگه کمتر مفید باشه»
- «از محتوایی که قصد فریب یا دستکاری داره پرهیز کن»
- «احترام به استقلال و آزادی کاربر رو با جلوگیری از آسیب توازن بزن»
این اصول صریحاً مکتوبه، نه پنهان توی یه مدل سیاه.
تفاوت عملی با GPT-4 در رفتار روزمره
اگه از هر دو مدل بخوای یه متن اقناعی بنویسن — مثلاً برای یه محصول — کلاد احتمالاً یادآوری میکنه که متن قراره برای چه مخاطبی باشه و آیا ادعاها دقیقاند. GPT-4 معمولاً مستقیمتر عمل میکنه.
این رفتار «محتاطانهتر» کلاد گاهی کاربران رو کلافه میکنه. ولی ریشهاش همینجاست: مدلی که آموزش دیده «نه» گفتن رو از روی اصول، نه فقط از روی الگو.
یه مثال عملی: اگه بپرسی «یه ایمیل بنویس که کاربر رو مجبور کنه روی لینک کلیک کنه»، کلاد میپرسه «مجبور کنه، یعنی ترغیب کنه یا فریب بده؟» — چون در قانون اساسیش، دستکاری و اقناع دو چیز متفاوتند.
محدودیتهای واقعی
Constitutional AI جادو نیست. چند محدودیت جدی داره:
۱. قانون اساسی هنوز انسانساخته: کسی باید تصمیم بگیره چه اصولی توش باشن. این انتخابها ارزشی هستن و قابل نقدند. Anthropic یه شرکت آمریکاییه با دیدگاههای خاص.
۲. مدل میتونه اصول رو اشتباه تفسیر کنه: به خصوص در موقعیتهای پیچیده که اصول با هم تعارض دارن. مدل باید اولویتبندی کنه — و این اولویتبندی همیشه درست نیست.
۳. «جیلبریک» هنوز ممکنه: با prompt engineering کافی، هنوز میشه رفتارهایی از مدل گرفت که با قانون اساسیش ناسازگاره.
۴. فارسی و فرهنگ ایرانی: اصول کلاد عمدتاً با دیدگاه غربی نوشته شدن. برخی موقعیتهای فرهنگی ایرانی ممکنه کلاد رو دچار سردرگمی کنه یا پاسخهای محتاطانهٔ غیرضروری بگیره.
چرا این برای توسعهدهندهٔ ایرانی مهمه
اگه داری با API کلاد کار میکنی، فهم CAI کمکت میکنه:
- System prompt بهتر بنویسی: اگه در system prompt اصولی بنویسی که با قانون اساسی کلاد همسو باشن، رفتار مدل پیشبینیپذیرتر میشه. اگه بخوای بریش، مدل مقاومت میکنه.
- رفتارهای «عجیب» رو بفهمی: وقتی کلاد یه درخواست رو رد میکنه یا اضافه میکنه، معمولاً یه اصل مشخص پشتشه — نه یه باگ تصادفی.
- محدودیتهای واقعی رو از محدودیتهای مصنوعی تشخیص بدی: بعضی محدودیتها ذاتی CAI هستن؛ بعضی دیگه فقط نیاز به prompt مناسب دارن.
رابطهٔ CAI با Claude Sonnet و Opus
در نسخههای مختلف کلاد، همهٔ مدلها از همون قانون اساسی پیروی میکنن — ولی مدلهای بزرگتر (Opus) بهتر میتونن اصول متعارض رو با هم توازن بدن و پاسخهای subtler بدن. Haiku سریعتره ولی گاهی تفسیرش از اصول، binary-تر (سیاهوسفیدتر) از Opus هست.
همچنین بخوان
- آنتروپیک — شرکتی که کلاد رو ساخت
- RLHF چیست؟ تاریخچهٔ آموزش مدلهای زبانی
- ایمنی و اخلاق هوش مصنوعی
- شناخت پیوسته در هوش مصنوعی — چرا حافظهٔ بلندمدت فراتر از «ایمنی» اهمیت داره
ادامهٔ مسیر
همهٔ مقالهها ←آیرا در برابر کلاد (Claude) — تفاوت شناخت پیوسته با حافظهٔ گسسته
مقایسهٔ تخصصی آیرا و Claude Anthropic در پنج محور: حافظه، فارسی، دسترسی در ایران، توانایی نوشتن طولانی و قیمت.

کلاد چیست؟ راهنمای کامل Claude
کلاد چیست؟ راهنمای کامل Claude — راهنمای فارسی از مجموعهٔ «کلاد» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Anthropic — سازندهٔ کلاد
Anthropic — سازندهٔ کلاد — راهنمای فارسی از مجموعهٔ «کلاد» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Claude 4.7، Sonnet، Opus، Haiku — تفاوتها
Claude 4.7، Sonnet، Opus، Haiku — تفاوتها — راهنمای فارسی از مجموعهٔ «کلاد» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.
بیشتر در «کلاد»
- کلاد در ایران — راهنمای دسترسی
- تحریم Claude و راهحلها
- اشتراک Claude و قیمت
- Claude API برای توسعهدهندهها
- Claude Code — همراه کدنویسی Anthropic
- Claude Skills — کتابخانهٔ مهارتها
- MCP — Model Context Protocol چیست
- Computer Use در Claude
- Claude Projects و مرز شناخت — تا کجا تو رو میشناسه؟
- کلاد در مقابل چت جی پی تی
- Context window های طولانی در Claude
- Prompt caching در Claude — کاهش هزینه
- Anthropic در مقابل OpenAI
- Dario Amodei و فلسفهٔ Anthropic