کلاد

Computer Use در Claude

Computer Use در Claude — راهنمای فارسی از مجموعهٔ «کلاد» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ Computer Use در Claude

در اکتبر ۲۰۲۴، Anthropic یه قابلیت عجیب و جدید معرفی کرد: Computer Use. توی این demo، مدل Claude می‌تونست کامپیوتر رو ببینه — مثل یه انسان — و کلیک کنه، تایپ کنه، فایل باز کنه، مرورگر کنترل کنه. این اولین بار بود که یه مدل زبانی بزرگ به این شکل با رابط گرافیکی تعامل می‌کرد.

Computer Use دقیقاً چیه؟

Computer Use یه قابلیت multimodal در Claude است که بهش اجازه می‌ده:

  • Screenshot بگیره از صفحه‌نمایش (یا یه محیط مجازی)
  • محتوا رو ببینه — چه متن، چه آیکون، چه دکمه
  • اقدام تصمیم بگیره — کجا کلیک کنه، چی تایپ کنه
  • نتیجه رو ارزیابی کنه — screenshot بعدی رو ببینه و ادامه بده

این یه حلقهٔ perception-action است — دقیقاً مثل آنچه یه انسان پشت کامپیوتر انجام می‌ده، ولی با یه مدل زبانی.

چرا این مهم بود؟

قبل از Computer Use، agent‌های AI برای کنترل نرم‌افزار نیاز به API یا ابزار متنی داشتن. یعنی اگه یه اپ API نداشت، agent نمی‌تونست باهاش کار کنه. Computer Use این محدودیت رو شکست — حالا agent می‌تونه هر نرم‌افزاری که یه انسان می‌تونه استفاده کنه رو استفاده کنه، حتی اگه هیچ APIای نداشته باشه.

مثال‌های واقعی که توی demo دیده شد:

  • پر کردن فرم‌های وب
  • نصب نرم‌افزار
  • کار با spreadsheet
  • جستجو و copy-paste بین برنامه‌ها
  • ثبت داده توی سیستم‌های قدیمی (legacy software)

چطور فعال می‌شه؟

Computer Use از طریق API Anthropic در دسترسه. برای استفاده:

۱. یه محیط مجازی (معمولاً یه Docker container با VNC) آماده می‌کنی ۲. از Claude می‌خوای screenshot بگیره با tool خاص ۳. Model خروجی می‌ده که کجا کلیک کنه یا چی تایپ کنه ۴. اپلیکیشنت اون اقدام رو اجرا می‌کنه و screenshot جدید می‌فرسته ۵. حلقه تکرار می‌شه

Anthropic یه reference implementation روی GitHub گذاشته با Ubuntu + Xfce که نقطهٔ شروع خوبیه.

ابزارهای built-in

وقتی Computer Use رو فعال می‌کنی، Claude به این toolها دسترسی داره:

  • computer — screenshot گرفتن، کلیک، تایپ، scroll، drag
  • text_editor — خواندن و نوشتن فایل متنی
  • bash — اجرای دستور shell

ترکیب این سه تا خیلی قدرتمنده — می‌تونی کدنویسی، مرور وب، و فایل‌سیستم رو با هم مدیریت کنی.

کجا کاربرد داره؟

Automation بدون API: سیستم‌های legacy که فقط رابط گرافیکی دارن — نرم‌افزارهای حسابداری قدیمی، سیستم‌های دولتی، ERP‌هایی که web service ندارن.

QA و تست UI: جای اینکه playwright یا selenium بنویسی، بگو «این سناریوی کاربری رو تست کن» — Claude خودش UI رو می‌بینه و تست می‌کنه.

Data entry: پر کردن فرم‌های تکراری از یه datasource — بدون scraping یا API.

Research: باز کردن چند منبع، خواندن، خلاصه‌سازی — همه رو به‌صورت خودکار.

محدودیت‌های جدی

Anthropic خودش صادقانه گفته Computer Use هنوز beta است و قابلیت‌های خاصی داره که باید باهاشون کنار بیای:

سرعت: هر قدم نیاز به یه API call، screenshot، و پردازش داره. یه task که انسان ۳۰ ثانیه انجام می‌ده ممکنه چند دقیقه طول بکشه.

دقت کلیک: گاهی مکان نادرست کلیک می‌کنه، خصوصاً وقتی عناصر UI شبیه هم باشن یا متن فارسی باشه.

فارسی و RTL: رابط‌های گرافیکی فارسی با layout RTL چالش بیشتری ایجاد می‌کنن — مدل گاهی موقعیت عناصر رو اشتباه تشخیص می‌ده.

امنیت: Claude به‌طور پیش‌فرض حساس به دستوراتی است که ممکنه آسیب بزنن. ولی برای محیط production، باید sandbox کامل بذاری — اجازه ندی به سیستم واقعی دسترسی داشته باشه.

هزینه: خیلی token مصرف می‌کنه چون هر screenshot یه image است. یه task ساده می‌تونه هزاران token بخوره.

Computer Use در مقابل browser agents

Browser agents مثل Playwright-based agentها یه رویکرد متفاوتن — اونا مستقیم با DOM کار می‌کنن، نه با screenshot. سریع‌تر و دقیق‌تر هستن برای وب. Computer Use وقتی ارزش داره که نرم‌افزار web-based نیست یا نمی‌تونی به DOM دسترسی داشته باشی.

وضعیت فعلی

تا اواسط ۲۰۲۵، Computer Use هنوز beta است و Anthropic روی بهبود دقت و سرعتش کار می‌کنه. در بنچمارک‌های عمومی مثل OSWorld، کلاد رتبهٔ خوبی داشته — ولی هنوز از انسان‌ها ضعیف‌تره. این یه technology در حال رشده، نه یه محصول production-ready کامل.

دسترسی از ایران

Computer Use از طریق Anthropic API در دسترسه. مثل بقیهٔ سرویس‌های Anthropic، از ایران مستقیم قابل دسترس نیست. نیاز به VPN و پرداخت ارزی داری.

همچنین بخوان

#کلاد

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «کلاد»