تصویر و ویدیو

Flux از Black Forest Labs

Flux از Black Forest Labs، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ تیم آیرا•۴ اردیبهشت ۱۴۰۵به‌روزرسانی: ۲۴ اردیبهشت ۱۴۰۵•۳ دقیقه مطالعه

Flux خانواده‌ای از مدل‌های تولید تصویر هوش مصنوعیه که توسط Black Forest Labs، استارتاپی از آلمان، ساخته شده. اگه اسم Stable Diffusion بهت آشناست، بدون که چند تن از سازندگانش الان پشت Flux هستن. از اواخر ۲۰۲۴ به بعد، Flux به یکی از جدی‌ترین رقبای Midjourney و DALL-E تبدیل شده، با این تفاوت که مدل پایه‌اش اوپن‌سورسه.

Black Forest Labs کیه؟

Black Forest Labs رو در ۲۰۲۴ تعدادی از کسایی که روی Stable Diffusion در Stability AI کار می‌کردن تأسیس کردن، از جمله Robin Rombach که از نویسندگان اصلی مقالهٔ Latent Diffusion Models بود. این بکگراند مهمه: Flux رو آدم‌هایی ساختن که یکی از اثرگذارترین مدل‌های تصویرساز تاریخ رو قبلاً ساخته بودن.

مدل‌های Flux، کدوم برای کدوم کار؟

Flux در چند ورژن اصلی منتشر شده:

Flux.1 [schnell]، سریع‌ترین مدل، کاملاً اوپن‌سورس (Apache 2.0). برای تولید سریع تصویر و کارهایی که نیاز به حجم بالا دارن مناسبه. چند مرحله inference لازم داره و کیفیتش از مدل‌های دیگه پایین‌تره ولی سرعتش خیلی بیشتره.

Flux.1 [dev]، مدل رده‌بالاتر برای توسعه‌دهنده‌ها. غیرتجاری، می‌شه باهاش آزمایش و تحقیق کرد ولی برای محصول تجاری باید مجوز بگیری.

Flux.1 [pro]، مدل اصلی تجاری که از طریق API شرکت‌هایی مثل Replicate, Together AI, و BFL API خودشون دسترس‌پذیره. بهترین کیفیت، مناسب برای محصولات واقعی.

Flux.1 Ultra و Flux.1 Canny/Depth، مدل‌های تخصصی‌تر که امکاناتی مثل کنترل ساختار تصویر (مثل ControlNet در Stable Diffusion) رو می‌دن.

Flux در عمل چقدر خوبه؟

سه حوزه‌ای که Flux واقعاً برجسته‌ست:

۱. پیروی از prompt: یکی از ضعف‌های تاریخی مدل‌های تصویرساز این بود که prompt طولانی رو درست اجرا نمی‌کردن. Flux در این حوزه بهتر از اکثر رقباشه، می‌تونی یه توضیح مفصل بدی و مدل اکثر جزئیات رو رعایت کنه.

۲. متن داخل تصویر: تا همین اواخر، نوشتن متن داخل تصویر یه کابوس بود، حروف عوضی، کلمات ناخوانا. Flux قدم بزرگی برداشته؛ هنوز کامل نیست ولی قابل مقایسه با مدل‌های قبلی نیست.

۳. رئالیسم و جزئیات: برای پرتره و صحنه‌های واقع‌گرایانه، Flux نتایج چشمگیری داره. بخصوص در رندر دست‌ها، که سال‌ها مشکل اصلی مدل‌های تصویرساز بود، پیشرفت محسوسی داریم.

کجاها هنوز ضعف داره؟ انیمیشن و سبک‌های بسیار خاص (مثلاً گرافیک وکتور تمیز) هنوز نیاز به کار بیشتر دارن.

دسترسی از ایران، واقعیت چیه؟

مثل اکثر ابزارهای AI غربی، BFL API مستقیماً از ایران قابل استفاده نیست و نیاز به VPN و اکانت خارجی داره. ولی گزینه‌هایی هستن:

Replicate: رایج‌ترین راه برای دسترسی به Flux API. نیاز به کارت خارجی یا پرداخت از طریق اکانت‌های واسط داره.

Hugging Face Spaces: خیلی از دمو‌های رایگان Flux روی HuggingFace هستن که با VPN قابل دسترسن.

مدل‌های لوکال: Flux.1 Schnell رو می‌شه روی GPU حداقل ۱۲ گیگابایت اجرا کرد. Flux.1 Dev به ۲۴ گیگابایت VRAM نیاز داره.

اگه به تولید تصویر در مقیاس نیاز داری، راه‌اندازی لوکال عملاً مقرون‌به‌صرفه‌ترین گزینه‌ست.

مقایسه با رقبا

Midjourney: هنوز در کیفیت هنری و «زیبایی» خروجی‌ها سرآمده، ولی closed-source‌ه و API عمومی نداره. Flux در prompt following از Midjourney بهتره.

DALL-E 3: داخل ChatGPT و API OpenAI موجوده. از نظر کیفیت کلی، Flux Pro باهاش رقابتیه ولی Flux منعطف‌تره.

Stable Diffusion 3: رقیب اصلی در دنیای اوپن‌سورس. SD3 هم خوبه ولی community و اکوسیستم Flux الان سریع‌تر رشد می‌کنه.

Ideogram: در متن داخل تصویر قوی‌تره، ولی در بقیهٔ موارد Flux رقابتی‌تره.

چطور از Flux استفاده کنیم؟ (رایگان)

HuggingFace Spaces: به huggingface.co/spaces برو و «Flux» سرچ کن. چندین دمو رایگان داری.

ComfyUI + Flux weights: اگه با ComfyUI آشنا هستی، می‌تونی مدل schnell رو دانلود کنی و لوکال اجرا کنی.

Freepik AI Image Generator: بعضی ابزارهای تجاری مثل Freepik از Flux پاورشده‌ان و پلن رایگان دارن.

یه نکتهٔ صادقانه

Flux مدل خوبیه ولی «بهترین» بودن توی AI تصویر خیلی سریع عوض می‌شه. از وقتی که Flux منتشر شد، Midjourney هم آپدیت‌هایی داشته، Ideogram 2.0 اومده، و احتمالاً تا وقتی این رو می‌خونی چیزهای جدیدتری هم اومدن.

اگه می‌خوای روی Flux سرمایه‌گذاری کنی (یاد بگیری، API راه بندی کنی)، اوپن‌سورس بودنش یه مزیت پایدار‌تره. مدل‌های بسته می‌تونن قیمتشون رو عوض کنن یا دسترسی رو ببندن.

همچنین بخوان

#تصویر و ویدیو

ادامهٔ مسیر

همهٔ مقاله‌ها ←

تصویر و ویدیو

تولید تصویر با هوش مصنوعی چیست

تولید تصویر با هوش مصنوعی چیست، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

Midjourney، راهنمای کامل

Midjourney، راهنمای کامل، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

DALL-E 3، راهنمای عمیق

DALL-E 3، راهنمای عمیق، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

Stable Diffusion

Stable Diffusion، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Black Forest Labs کیه؟

مدل‌های Flux، کدوم برای کدوم کار؟

Flux در عمل چقدر خوبه؟

دسترسی از ایران، واقعیت چیه؟

مقایسه با رقبا

چطور از Flux استفاده کنیم؟ (رایگان)

یه نکتهٔ صادقانه

همچنین بخوان

ادامهٔ مسیر

تولید تصویر با هوش مصنوعی چیست

Midjourney، راهنمای کامل

DALL-E 3، راهنمای عمیق

Stable Diffusion

بیشتر در «تصویر و ویدیو»