ایجنت‌ها

AutoGPT — اولین تجربهٔ ایجنت خودکار

AutoGPT — اولین تجربهٔ ایجنت خودکار — راهنمای فارسی از مجموعهٔ «ایجنت‌ها» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ AutoGPT — اولین تجربهٔ ایجنت خودکار

اوایل ۲۰۲۳ یه مخزن گیت‌هاب در عرض چند هفته به یکی از پُرستاره‌ترین پروژه‌های تاریخ این پلتفرم تبدیل شد. اسمش AutoGPT بود. خیلی‌ها فکر کردند هوش مصنوعی عمومی (AGI) رسیده. واقعیت پیچیده‌تر — و جالب‌تر — بود.

AutoGPT دقیقاً چیست؟

AutoGPT یه فریم‌ورک اوپن‌سورس پایتونیه که در مارس ۲۰۲۳ توسط Toran Bruce Richards منتشر شد. ایدهٔ اصلیش ساده اما انقلابی بود: به جای اینکه انسان هر بار یه پرامپت بنویسه و منتظر جواب بمونه، بذاریم مدل زبانی (GPT-4) خودش تصمیم بگیره چه ابزاری رو بزنه، نتیجه رو بخونه، و قدم بعدی رو خودش تعریف کنه — تا به هدف نهایی برسه.

به عبارت دیگه، AutoGPT اولین پیاده‌سازی عمومی و محبوب از مفهوم ایجنت حلقه‌بسته (agentic loop) بود.

چطور کار می‌کند؟

معماری AutoGPT حول پنج مؤلفه می‌چرخه:

۱. هدف (Goal): کاربر در ابتدا یه هدف بلندمدت تعریف می‌کنه. مثلاً: «یه استارتاپ در حوزهٔ فینتک تحلیل کن و یه گزارش رقابتی ۵ صفحه‌ای بده.» ۲. حافظهٔ کوتاه‌مدت: متن مکالمهٔ جاری — همون context window مدل. ۳. حافظهٔ بلندمدت: یه پایگاه برداری (vector store) که AutoGPT می‌تونه اطلاعات قبلی رو توش ذخیره و بازیابی کنه. ۴. ابزارها: جستجوی وب، نوشتن/خواندن فایل، اجرای کد پایتون، ارسال ایمیل و ده‌ها پلاگین دیگه. ۵. حلقهٔ تفکر: مدل در هر گام «فکر» (Thought)، «استدلال» (Reasoning)، «برنامه» (Plan) و «انتقاد از خود» (Criticism) تولید می‌کنه، بعد یه ابزار فراخوانی می‌کنه.

این معماری در واقع پیشگام چیزی بود که بعدها به عنوان ReAct loop در ادبیات پژوهشی رسمیت پیدا کرد.

چرا آن‌قدر هیجان ایجاد کرد؟

تا قبل از AutoGPT، مردم ChatGPT رو مثل یه اوراکل می‌دیدند که سؤال می‌پرسی و جواب می‌گیری. AutoGPT نشون داد مدل زبانی می‌تونه عامل (agent) باشه — نه فقط پاسخ‌دهنده. بتونه وظایف چندمرحله‌ای انجام بده، از شکست‌ها یاد بگیره (در طول همون ران)، و ابزارهای خارجی رو ارکستریت کنه.

در اوج محبوبیتش، ویدیوهایی وایرال می‌شد که AutoGPT داره یه کسب‌وکار خیالی ثبت می‌کنه، سایت طراحی می‌کنه، و حتی ایمیل به سرمایه‌گذار می‌فرسته.

محدودیت‌های واقعی AutoGPT

صادقانه بگم، AutoGPT در عمل خیلی محدودتر از تبلیغات بود:

هزینهٔ API بالا: چون مدل در هر گام چندین بار API فراخوانی می‌کنه، یه تسک ساده می‌توانست ده‌ها دلار هزینه داشته باشه.

حلقه‌های بی‌نهایت: مدل اغلب گیر می‌افتاد و همون کار رو مکرر تکرار می‌کرد بدون اینکه پیشرفتی داشته باشه.

شکنندگی در برابر صفحه‌های واقعی: وقتی وب‌سایت‌ها عوض می‌شدند یا CAPTCHA داشتند، ایجنت گیج می‌شد.

فارسی ضعیف: GPT-3.5 که اکثر کاربران استفاده می‌کردند، در دستورهای فارسی درک درستی نداشت.

قابل اعتماد نبودن: برای تسک‌های حیاتی (ایمیل فرستادن، خرید آنلاین) کاربر مدام باید نظارت می‌کرد — که هدف اتوماسیون رو نقض می‌کرد.

AutoGPT امروز کجا است؟

پروژه ادامه پیدا کرد اما مسیرش عوض شد. در ۲۰۲۴ تیم AutoGPT یه پلتفرم جدید به اسم AutoGPT Platform (قبلاً Forge) معرفی کرد که بیشتر روی ساخت بصری ایجنت‌ها (drag-and-drop) تمرکز دارد، شبیه به n8n ولی با تمرکز روی LLM.

همچنین مفهوم AutoGPT الهام‌بخش ابزارهای حرفه‌ای‌تری شد:

  • LangChain / LangGraph: فریم‌ورک‌های ساخت ایجنت با کنترل بیشتر
  • CrewAI: سیستم چندعاملی با نقش‌های تخصصی
  • Claude Computer Use: مدلی که مستقیم UI رو کنترل می‌کنه

درس اصلی AutoGPT

AutoGPT ثابت کرد که LLMها می‌توانند در حلقه‌های چندمرحله‌ای کار کنند — اما همزمان نشان داد که حافظه و هویت پایدار ضعیف‌ترین حلقهٔ زنجیر است. ایجنتی که پروژهٔ تو رو از صفر نمی‌شناسه، در هر session باید از صفر شروع کنه. این مشکل بنیادیه.

این همون چیزیه که رویکرد شناخت پیوسته در ابزارهایی مثل AiraCode حل می‌کنه — ایجنت کدنویسی که ساختار پروژه، تصمیم‌های قبلی، و سلیقهٔ تو رو به‌یاد می‌آوره.

همچنین بخوان

#ایجنت‌ها

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «ایجنت‌ها»