کلاد

Dario Amodei و فلسفهٔ Anthropic

Dario Amodei و فلسفهٔ Anthropic — راهنمای فارسی از مجموعهٔ «کلاد» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ ۴ دقیقه مطالعه
تصویر مقالهٔ Dario Amodei و فلسفهٔ Anthropic

Dario Amodei یکی از تأثیرگذارترین چهره‌های هوش مصنوعی امروز است — و درک فلسفه‌اش کمک می‌کنه بفهمی چرا Claude اینقدر با ChatGPT فرق داره. او اول از OpenAI آمد، بعد Anthropic رو ساخت، و الان یکی از صریح‌ترین صداهای AI safety در دنیاست. این مقاله نگاهی می‌اندازه به مسیر فکری او، ایده‌های اصلیش، و اینکه این ایده‌ها چطور توی Claude خودشون رو نشون می‌دن.

از OpenAI تا Anthropic — چرا جدا شد؟

Dario Amodei در سال ۲۰۱۶ به OpenAI پیوست و VP of Research شد. تیمش کارهای مهمی مثل GPT-2 و GPT-3 و تحقیقات اولیهٔ scaling laws رو پیش برد. ولی در سال ۲۰۲۱، او به همراه خواهرش Daniela Amodei و ۹ نفر دیگه از OpenAI خارج شد و Anthropic رو تأسیس کرد.

دلیل رسمی که هرگز به‌صراحت گفته نشد ولی از مصاحبه‌ها قابل جمع‌بنده: اختلاف نظر جدی درباره اینکه امنیت باید چقدر جدی گرفته بشه. گروه Dario معتقد بودن OpenAI داره خیلی سریع پیش می‌ره بدون اینکه چارچوب‌های ایمنی کافی داشته باشه.

Anthropic با یه ادعای جالب راه افتاد: «ما معتقدیم ممکنه داریم یکی از خطرناک‌ترین فناوری‌های تاریخ بشر می‌سازیم — و بازم داریم می‌سازیمش، چون اگر نسازیم، دیگران می‌سازن.» این تناقض ظاهری در واقع استراتژی‌ای محاسبه‌شده‌ست که Dario بهش می‌گه «race to the top» — اگه AI ناگزیر ساخته می‌شه، بهتره کسی باشه که safety رو جدی می‌گیره.

ایده‌های کلیدی Dario Amodei

۱. Constitutional AI

بزرگ‌ترین نوآوری تکنیکی Anthropic که Dario روش تأکید زیادی داره، Constitutional AI است. ایدهٔ اصلی ساده است: به جای اینکه فقط از آدم‌ها بخوای بگن «این جواب خوبه یا بده»، یه مجموعه اصول می‌نویسی (constitution) و مدل رو آموزش می‌دی که خودش بر اساس این اصول ارزیابی کنه.

این کار دو نتیجه داره:

  • مدل شفاف‌تره — می‌دونی «چرا» رفتار خاصی داره
  • مقیاس‌پذیرتره — نیاز به annotation انسانی کمتری داره

۲. Interpretability — درون مدل رو بفهم

یکی از پروژه‌های مهم Anthropic «mechanistic interpretability» است — تلاش برای اینکه بفهمیم داخل یه شبکهٔ عصبی دقیقاً چه اتفاقی می‌افته. تیم Anthropic چند سال است روی این موضوع کار می‌کنه و نتایج جالبی داره — مثل شناسایی «features» مشخص در مدل که به مفاهیم انتزاعی مثل «خشم» یا «قانونی بودن» مربوط می‌شن.

Dario معتقده تا وقتی نتونیم مدل رو «بخونیم»، نمی‌تونیم بهش اعتماد کنیم.

۳. Long-termism در AI safety

Dario جزء معدود افرادیه که صریحاً از «خطر وجودی» AI حرف می‌زنه — نه به‌عنوان پیشگویی حتمی، بلکه به‌عنوان ریسکی که باید امروز برنامه‌ریزی کرد. او به‌عنوان یه «cautious optimist» خودش رو توصیف می‌کنه: امیدوار به آینده‌ای که AI مشکلات بزرگ بشر رو حل می‌کنه، ولی نگران از مسیری که اگه اشتباه بریم.

در یه مقالهٔ بلند سپتامبر ۲۰۲۴ با عنوان «Machines of Loving Grace»، Dario آینده‌ای رو توصیف کرد که AI می‌تونه تا سال ۲۰۳۰ به ما در حل سرطان، بیماری‌های ذهنی، و فقر کمک کنه — اما این با «ایمنی اول» تناقض نداره.

۴. Scaling به جای فارغ‌التحصیل‌های Berkeley

Dario از اوایل باور داشت که «bigger is better» — یعنی مدل‌های بزرگ‌تر با داده بیشتر، به طرز غیرخطی قابلیت‌های جدید کسب می‌کنن. این ایده که به «emergence» معروفه، پایه‌ای برای استراتژی Claude بود.

چطور این فلسفه روی Claude اثر گذاشته؟

Claude از نظر رفتاری با ChatGPT تفاوت‌های ملموس داره:

صداقت بیشتر: Claude اگه چیزی رو نمی‌دونه، می‌گه «مطمئن نیستم». این از اصل Anthropic در مورد «non-deception» میاد.

رفض با توضیح: وقتی Claude درخواستی رو رد می‌کنه، معمولاً دلیل می‌ده. این در تضاد با رد ساده‌ی ChatGPT است.

کنجکاوی: Claude اغلب سؤالاتی می‌پرسه که ببینه دقیقاً چی می‌خوای. این رو به مذاق بعضی‌ها نمی‌خوره، ولی کیفیت خروجی رو بالا می‌بره.

Context window بلند: Anthropic روی long-context خیلی سرمایه‌گذاری کرده — Claude 3 تا ۲۰۰ هزار توکن context پشتیبانی می‌کنه. این از باور Dario به اهمیت «داشتن تمام اطلاعات» میاد.

انتقادات

Dario و Anthropic هم بی‌انتقاد نیستن:

«effective accelerationism vs. safety theater»: منتقدان می‌گن Anthropic با گرفتن ۷+ میلیارد دلار سرمایه و اعلام اینکه AI خطرناکه، تناقض عملی داره.

مخفی‌کاری: برخلاف ادعای openness، Anthropic جزئیات فنی Claude رو کمتر از Google یا Meta منتشر می‌کنه.

قیمت‌گذاری: Claude API نسبت به OpenAI گران‌تره — که با مأموریت «AI برای همه» کمی جور نمیاد.

چرا این مهمه؟

فهمیدن فلسفهٔ Dario کمک می‌کنه به‌عنوان کاربر بدونی از چه ابزاری داری استفاده می‌کنی. Claude یه ابزار «sycophancy-averse» است — یعنی برای خوشحال‌کردنت طراحی نشده، بلکه برای دادن بهترین پاسخ. بعضی‌ها این رو دوست دارن، بعضی‌ها ترجیح می‌دن ChatGPT موافق‌تر رو انتخاب کنن.

همچنین اگه تاریخچهٔ هوش مصنوعی برات جالبه، مسیر OpenAI → Anthropic یکی از مهم‌ترین انشعاب‌های تاریخ AI است که تأثیرش هنوز داره شکل می‌گیره.

همچنین بخوان

#کلاد

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «کلاد»