ایجنت‌ها

Browser agents — Browser Use و Skyvern

Browser agents — Browser Use و Skyvern — راهنمای فارسی از مجموعهٔ «ایجنت‌ها» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۴ دقیقه مطالعه
تصویر مقالهٔ Browser agents — Browser Use و Skyvern

تصور کن بهش بگی: «برو توی سایت دیوار، آگهی‌های آپارتمان تهران زیر ۵ میلیارد رو جمع کن و بریز توی یه اکسل.» ایجنت مرورگر می‌ره، سایت رو باز می‌کنه، فیلتر می‌زنه، صفحه‌ها رو می‌چرخه، داده جمع می‌کنه، و فایل رو تحویل می‌ده — بدون اینکه تو یه خط کد نوشته باشی.

این دقیقاً همون کاریه که Browser agents انجام می‌دن.

Browser Agent چیست؟

Browser agent یه ایجنت هوش مصنوعیه که مرورگر وب رو کنترل می‌کنه — نه API، نه scraping مستقیم HTML، بلکه دقیقاً مثل یه انسان: صفحه رو می‌بینه، روی دکمه‌ها کلیک می‌کنه، فرم پر می‌کنه، اسکرول می‌کنه، منتظر لود شدن می‌مونه.

این رویکرد چند مزیت بزرگ داره نسبت به scraping سنتی:

۱. سازگاری با JavaScript: سایت‌های مدرن محتواشون رو با JavaScript رندر می‌کنن. Scraper‌های HTML‌خوان این محتوا رو نمی‌بینن. Browser agent مثل مرورگر واقعی، JavaScript رو اجرا می‌کنه.

۲. بدون نیاز به API: اگه سایتی API نداشته باشه، browser agent می‌تونه مستقیم با UI کار کنه.

۳. تطبیق‌پذیری: وقتی UI سایت عوض می‌شه، browser agent می‌تونه adapt کنه — scraper‌های سنتی می‌شکنند.

Browser Use — ابزار اوپن‌سورس

Browser Use (github.com/browser-use/browser-use) یه کتابخانهٔ پایتونیه که در اواخر ۲۰۲۴ خیلی سریع محبوب شد. ایدهٔ کلیدیش اینه: به جای اینکه از XPath یا CSS selector برای شناسایی عناصر صفحه استفاده کنی، مدل زبانی صفحه رو می‌بینه (از طریق accessibility tree یا screenshot) و خودش تشخیص می‌ده کجا باید کلیک کنه.

معماری Browser Use:

  • از Playwright برای کنترل مرورگر Chromium استفاده می‌کنه
  • صفحه رو به شکل یه درخت ساختاریافته به مدل می‌ده (نه HTML خام)
  • از GPT-4o یا Claude برای تصمیم‌گیری استفاده می‌کنه
  • تاریخچهٔ اعمال انجام‌شده رو نگه می‌داره تا حلقه‌های تکراری نزنه

مثال کاربردی با Browser Use:

from browser_use import Agent
from langchain_openai import ChatOpenAI

agent = Agent(
    task="برو سایت jobinja.ir، جستجو کن Python developer تهران، 
          ۱۰ آگهی اول رو با لینک و حقوق ذخیره کن",
    llm=ChatOpenAI(model="gpt-4o"),
)
await agent.run()

قابلیت‌های Browser Use:

  • پر کردن فرم‌ها و login
  • استخراج داده از جداول و لیست‌ها
  • ناوبری چندمرحله‌ای
  • handling captcha (با محدودیت)
  • ذخیرهٔ نتایج در فرمت دلخواه

Skyvern — رویکرد enterprise

Skyvern (skyvern.com) یه سطح بالاتر از Browser Use هست. اوپن‌سورسه اما نسخهٔ cloud هم داره و بیشتر روی اتوماسیون enterprise و تکرارپذیری تمرکز داره.

تفاوت کلیدی Skyvern اینه که از Computer Vision برای شناسایی عناصر صفحه استفاده می‌کنه — نه فقط accessibility tree. این یعنی حتی وقتی عناصر HTML بدون label باشن یا با CSS پنهان شده باشن، Skyvern می‌تونه اونا رو بصری شناسایی کنه.

موارد استفادهٔ واقعی Skyvern:

  • Insurance forms: شرکت‌های بیمه برای پر کردن فرم‌های بیمه‌ای در سایت‌های مختلف
  • Government portals: تعامل با پورتال‌های دولتی که API ندارن
  • Lead generation: جمع‌آوری اطلاعات از سایت‌های B2B
  • Job applications: ارسال رزومه در سایت‌های مختلف

قیمت Skyvern Cloud: بر اساس تعداد workflow execution، حدود ۰.۱ دلار تا ۱ دلار به ازای هر run بسته به پیچیدگی.

مقایسهٔ Browser Use vs Skyvern

ویژگیBrowser UseSkyvern
لایسنساوپن‌سورس (MIT)اوپن‌سورس + Cloud
رویکردAccessibility treeComputer Vision + accessibility
برای توسعه‌دهندهعالیخوب
برای non-coderنهبله (cloud UI)
قابلیت captchaمحدودمحدود
مناسب enterpriseتا حدیبله

سایر ابزارهای مشابه

Playwright با AI: خود Playwright یه کتابخانهٔ browser automation قدرتمنده. با افزودن یه لایهٔ LLM می‌تونی script‌های هوشمندتری بنویسی. نه به اندازهٔ Browser Use آسان، اما کنترل بیشتری داری.

Stagehand (Browserbase): یه فریم‌ورک جدیدتر که روی TypeScript هست و بین «دستورات مستقیم» و «استدلال LLM» تعادل برقرار می‌کنه — برای توسعه‌دهنده‌هایی که می‌خوان کنترل بیشتری داشته باشن.

Claude Computer Use: آنتروپیک در اکتبر ۲۰۲۴ Claude Computer Use رو معرفی کرد — نه فقط مرورگر، بلکه کنترل کامل دسکتاپ (موس، کیبورد، هر برنامه‌ای). این رویکرد متفاوته چون مدل مستقیم screenshot می‌بینه و فکر می‌کنه.

محدودیت‌های واقعی

CAPTCHAها: هنوز مشکل جدیه. سایت‌هایی که از reCAPTCHA یا hCaptcha استفاده می‌کنن، browser agent رو کُند یا متوقف می‌کنن.

سایت‌های پویا و نامنظم: سایت‌هایی که UI‌شون خیلی ناپایداره یا از routing های غیراستاندارد استفاده می‌کنن، مشکل‌سازن.

قابلیت اطمینان: برای تسک‌های حیاتی (مثل پرداخت آنلاین) هنوز نیاز به نظارت انسانی دارن. success rate روی تسک‌های پیچیده معمولاً ۶۰-۸۰٪ هست.

هزینه: هر browser automation call به LLM چندین token مصرف می‌کنه. یه workflow ۱۰ مرحله‌ای می‌تونه با GPT-4o چند سنت تا چند ده سنت هزینه داشته باشه.

آیا برای کاربر ایرانی مناسب است؟

بله، با محدودیت‌ها. Browser Use اوپن‌سورسه و می‌تونی روی سرور خودت اجرا کنی. برای تسک‌هایی مثل:

  • پایش قیمت در سایت‌های ایرانی
  • جمع‌آوری اطلاعات از پورتال‌های دولتی
  • اتوماسیون فرم‌های تکراری

کاملاً قابل استفاده‌ست. فقط به یه API key از OpenAI یا آنتروپیک نیاز داری (که خودش برای کاربران ایرانی نیاز به VPN داره).


Browser agent‌ها نمونهٔ خوبی از اینن که چطور AI از «پاسخ‌دهنده» تبدیل به «عامل» می‌شه — مفهومی که در شناخت پیوسته هم بهش می‌رسیم.

همچنین بخوان

#ایجنت‌ها

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «ایجنت‌ها»