Browser agents — Browser Use و Skyvern
Browser agents — Browser Use و Skyvern — راهنمای فارسی از مجموعهٔ «ایجنتها» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصور کن بهش بگی: «برو توی سایت دیوار، آگهیهای آپارتمان تهران زیر ۵ میلیارد رو جمع کن و بریز توی یه اکسل.» ایجنت مرورگر میره، سایت رو باز میکنه، فیلتر میزنه، صفحهها رو میچرخه، داده جمع میکنه، و فایل رو تحویل میده — بدون اینکه تو یه خط کد نوشته باشی.
این دقیقاً همون کاریه که Browser agents انجام میدن.
Browser Agent چیست؟
Browser agent یه ایجنت هوش مصنوعیه که مرورگر وب رو کنترل میکنه — نه API، نه scraping مستقیم HTML، بلکه دقیقاً مثل یه انسان: صفحه رو میبینه، روی دکمهها کلیک میکنه، فرم پر میکنه، اسکرول میکنه، منتظر لود شدن میمونه.
این رویکرد چند مزیت بزرگ داره نسبت به scraping سنتی:
۱. سازگاری با JavaScript: سایتهای مدرن محتواشون رو با JavaScript رندر میکنن. Scraperهای HTMLخوان این محتوا رو نمیبینن. Browser agent مثل مرورگر واقعی، JavaScript رو اجرا میکنه.
۲. بدون نیاز به API: اگه سایتی API نداشته باشه، browser agent میتونه مستقیم با UI کار کنه.
۳. تطبیقپذیری: وقتی UI سایت عوض میشه، browser agent میتونه adapt کنه — scraperهای سنتی میشکنند.
Browser Use — ابزار اوپنسورس
Browser Use (github.com/browser-use/browser-use) یه کتابخانهٔ پایتونیه که در اواخر ۲۰۲۴ خیلی سریع محبوب شد. ایدهٔ کلیدیش اینه: به جای اینکه از XPath یا CSS selector برای شناسایی عناصر صفحه استفاده کنی، مدل زبانی صفحه رو میبینه (از طریق accessibility tree یا screenshot) و خودش تشخیص میده کجا باید کلیک کنه.
معماری Browser Use:
- از Playwright برای کنترل مرورگر Chromium استفاده میکنه
- صفحه رو به شکل یه درخت ساختاریافته به مدل میده (نه HTML خام)
- از GPT-4o یا Claude برای تصمیمگیری استفاده میکنه
- تاریخچهٔ اعمال انجامشده رو نگه میداره تا حلقههای تکراری نزنه
مثال کاربردی با Browser Use:
from browser_use import Agent
from langchain_openai import ChatOpenAI
agent = Agent(
task="برو سایت jobinja.ir، جستجو کن Python developer تهران،
۱۰ آگهی اول رو با لینک و حقوق ذخیره کن",
llm=ChatOpenAI(model="gpt-4o"),
)
await agent.run()
قابلیتهای Browser Use:
- پر کردن فرمها و login
- استخراج داده از جداول و لیستها
- ناوبری چندمرحلهای
- handling captcha (با محدودیت)
- ذخیرهٔ نتایج در فرمت دلخواه
Skyvern — رویکرد enterprise
Skyvern (skyvern.com) یه سطح بالاتر از Browser Use هست. اوپنسورسه اما نسخهٔ cloud هم داره و بیشتر روی اتوماسیون enterprise و تکرارپذیری تمرکز داره.
تفاوت کلیدی Skyvern اینه که از Computer Vision برای شناسایی عناصر صفحه استفاده میکنه — نه فقط accessibility tree. این یعنی حتی وقتی عناصر HTML بدون label باشن یا با CSS پنهان شده باشن، Skyvern میتونه اونا رو بصری شناسایی کنه.
موارد استفادهٔ واقعی Skyvern:
- Insurance forms: شرکتهای بیمه برای پر کردن فرمهای بیمهای در سایتهای مختلف
- Government portals: تعامل با پورتالهای دولتی که API ندارن
- Lead generation: جمعآوری اطلاعات از سایتهای B2B
- Job applications: ارسال رزومه در سایتهای مختلف
قیمت Skyvern Cloud: بر اساس تعداد workflow execution، حدود ۰.۱ دلار تا ۱ دلار به ازای هر run بسته به پیچیدگی.
مقایسهٔ Browser Use vs Skyvern
| ویژگی | Browser Use | Skyvern |
|---|---|---|
| لایسنس | اوپنسورس (MIT) | اوپنسورس + Cloud |
| رویکرد | Accessibility tree | Computer Vision + accessibility |
| برای توسعهدهنده | عالی | خوب |
| برای non-coder | نه | بله (cloud UI) |
| قابلیت captcha | محدود | محدود |
| مناسب enterprise | تا حدی | بله |
سایر ابزارهای مشابه
Playwright با AI: خود Playwright یه کتابخانهٔ browser automation قدرتمنده. با افزودن یه لایهٔ LLM میتونی scriptهای هوشمندتری بنویسی. نه به اندازهٔ Browser Use آسان، اما کنترل بیشتری داری.
Stagehand (Browserbase): یه فریمورک جدیدتر که روی TypeScript هست و بین «دستورات مستقیم» و «استدلال LLM» تعادل برقرار میکنه — برای توسعهدهندههایی که میخوان کنترل بیشتری داشته باشن.
Claude Computer Use: آنتروپیک در اکتبر ۲۰۲۴ Claude Computer Use رو معرفی کرد — نه فقط مرورگر، بلکه کنترل کامل دسکتاپ (موس، کیبورد، هر برنامهای). این رویکرد متفاوته چون مدل مستقیم screenshot میبینه و فکر میکنه.
محدودیتهای واقعی
CAPTCHAها: هنوز مشکل جدیه. سایتهایی که از reCAPTCHA یا hCaptcha استفاده میکنن، browser agent رو کُند یا متوقف میکنن.
سایتهای پویا و نامنظم: سایتهایی که UIشون خیلی ناپایداره یا از routing های غیراستاندارد استفاده میکنن، مشکلسازن.
قابلیت اطمینان: برای تسکهای حیاتی (مثل پرداخت آنلاین) هنوز نیاز به نظارت انسانی دارن. success rate روی تسکهای پیچیده معمولاً ۶۰-۸۰٪ هست.
هزینه: هر browser automation call به LLM چندین token مصرف میکنه. یه workflow ۱۰ مرحلهای میتونه با GPT-4o چند سنت تا چند ده سنت هزینه داشته باشه.
آیا برای کاربر ایرانی مناسب است؟
بله، با محدودیتها. Browser Use اوپنسورسه و میتونی روی سرور خودت اجرا کنی. برای تسکهایی مثل:
- پایش قیمت در سایتهای ایرانی
- جمعآوری اطلاعات از پورتالهای دولتی
- اتوماسیون فرمهای تکراری
کاملاً قابل استفادهست. فقط به یه API key از OpenAI یا آنتروپیک نیاز داری (که خودش برای کاربران ایرانی نیاز به VPN داره).
Browser agentها نمونهٔ خوبی از اینن که چطور AI از «پاسخدهنده» تبدیل به «عامل» میشه — مفهومی که در شناخت پیوسته هم بهش میرسیم.
همچنین بخوان
ادامهٔ مسیر
همهٔ مقالهها ←
ایجنت هوش مصنوعی چیست
ایجنت هوش مصنوعی چیست — راهنمای فارسی از مجموعهٔ «ایجنتها» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Multi-agent systems
Multi-agent systems — راهنمای فارسی از مجموعهٔ «ایجنتها» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LangChain — راهنمای فارسی
LangChain — راهنمای فارسی — راهنمای فارسی از مجموعهٔ «ایجنتها» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

LangGraph — workflows با حالت
LangGraph — workflows با حالت — راهنمای فارسی از مجموعهٔ «ایجنتها» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.
بیشتر در «ایجنتها»
- AutoGen مایکروسافت
- CrewAI — تیم ایجنتهای همکار
- AutoGPT — اولین تجربهٔ ایجنت خودکار
- Coding agents — SWE-agent و Devin
- Workflow agents — n8n با AI
- MCP و اکوسیستم ایجنتها
- مقایسهٔ فریمورکهای ایجنت
- بنچمارکهای ایجنت — SWE-bench
- ساخت ایجنت — اولین قدمها
- خطرات و محدودیتهای ایجنتها
- ایجنتهایی که یاد میگیرن — شناخت پیوسته در ایجنتها