تصویر و ویدیو

DALL-E 3، راهنمای عمیق

DALL-E 3، راهنمای عمیق، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ تیم آیرا•۲۱ اسفند ۱۴۰۴به‌روزرسانی: ۱۸ فروردین ۱۴۰۵•۳ دقیقه مطالعه

DALL·E 3 از اون مدل‌هاییه که نقطهٔ عطف واقعی توش اینه که پرامپت‌هات رو خودش بازنویسی می‌کنه. این یه تغییر رویکرد بنیادیه، نه تو باید یاد بگیری چطور با مدل حرف بزنی، بلکه مدل سعی می‌کنه منظورت رو بفهمه. این یه مزیته، و گاهی یه نقطهٔ ضعف.

DALL·E 3 چی هست

DALL·E 3 مدل تولید تصویر OpenAI‌ه که اواخر ۲۰۲۳ معرفی شد و از طریق ChatGPT و API در دسترسه. تفاوت اصلی‌اش با DALL·E 2 در دو چیزه: درک مفهومی عمیق‌تر از پرامپت، و قابلیت رندر متن داخل تصویر.

زیر این مدل یه سیستم «prompt rewriting» داره، وقتی چیزی می‌نویسی، ChatGPT اون رو به یه پرامپت مفصل‌تر برای DALL·E تبدیل می‌کنه. این کمک می‌کنه نتایج بهتری از توصیف‌های ساده بگیری، ولی در عوض کنترل دقیق رو کمی سخت‌تر می‌کنه.

قابلیت‌های واقعی

رزولوشن: استاندارد ۱۰۲۴x۱۰۲۴ پیکسل. از طریق API می‌شه ۱۷۹۲x۱۰۲۴ (landscape) یا ۱۰۲۴x۱۷۹۲ (portrait) هم خواست.

متن در تصویر: این ویژگی‌ای‌ه که DALL·E 3 رو از اکثر رقبا جدا می‌کنه. اگه بگی «یه پوستر با نوشتهٔ Welcome» خیلی وقت‌ها درست رندر می‌کنه. این کار در Midjourney و Stable Diffusion تا همین اواخر ضعیف بود.

سبک‌های بصری: عکاسی واقع‌گرایانه، نقاشی رنگ روغن، آبرنگ، وکتور، ایزومتریک، pixel art، تنوع خوبیه. سبک‌های هنرمند خاص رو به دلایل کپی‌رایت محدود کردن.

چه چیزهایی ضعیفه: دست‌ها هنوز گاهی مشکل دارن (اگرچه بهتر از قبل). ایجاد شخصیت ثابت در چند تصویر مختلف سخته. تصاویر خیلی شلوغ با اجزای زیاد کیفیت پایین‌تری دارن. انیمیشن و ویدیو ندارد.

دسترسی از ایران

DALL·E 3 از طریق سه مسیر در دسترسه:

۱. ChatGPT Plus/Pro: مستقیم‌ترین راه، ولی نیاز به اشتراک دلاری داره. اکانت اشتراکی ارزان‌ترین گزینه‌ست.

۲. API: برای توسعه‌دهنده‌ها. هر تصویر ۱۰۲۴x۱۰۲۴ حدود ۰.۰۴ دلار. با کارت ارزی کار می‌کنه.

۳. Bing Image Creator: مایکروسافت از DALL·E 3 در Bing استفاده می‌کنه و رایگانه، ولی با VPN و دسترسی محدودتر.

تحریم‌ها IP ایران رو بلاک می‌کنن، VPN الزامیه.

راهنمای پرامپت‌نویسی برای DALL·E 3

چون DALL·E 3 پرامپت رو بازنویسی می‌کنه، بهترین نتیجه رو وقتی می‌گیری که پرامپتت مفهومی و صادقانه باشه، نه صرفاً فنی.

ساختار پیشنهادی:

[موضوع اصلی]، [محیط/فضا]، [سبک بصری]، [نور]، [جزئیات خاص]

مثال ضعیف: «یه گربه کنار پنجره»

مثال قوی: «یه گربهٔ نارنجی پیر روی لبهٔ پنجرهٔ چوبی قدیمی در یه روز بارانی، سبک نقاشی آبرنگ، نور ملایم خاکستری از پنجره، ضربات قلم مشخص»

برای متن در تصویر: کلمه‌ها رو داخل گیومه بذار، مثلاً: «یه لوگو با نوشتهٔ "AiraChat" به فونت مدرن، پس‌زمینهٔ تیره، رنگ بنفش».

پرامپت فارسی: DALL·E 3 پرامپت فارسی می‌فهمه و نسبتاً خوب کار می‌کنه. ولی برای مفاهیم بصری تخصصی یا اصطلاحات فنی (مثل «bokeh»، «chiaroscuro»، «rule of thirds»)، انگلیسی نتایج قابل‌پیش‌بینی‌تری می‌ده.

DALL·E 3 در مقابل Midjourney، Flux، و Imagen

	DALL·E 3	Midjourney v6	Flux Pro	Imagen 3
رندر متن	عالی	متوسط	خوب	خوب
واقع‌گرایی عکسی	خوب	عالی	عالی	عالی
کنترل سبک هنری	متوسط	عالی	خوب	متوسط
دسترسی برای ایرانی	سخت	سخت‌تر	نسبتاً راحت	سخت
قیمت	۰.۰۴$/تصویر	از ۱۰$/ماه	از ۰.۰۵$/تصویر	از طریق Gemini

Midjourney در زیباشناسی هنری و سبک‌های خاص پیشتازه، اگه دنبال تصویری می‌گردی که «هنری» به نظر برسه، اونجا بهتری. Flux کنترل بیشتری می‌ده و در واقع‌گرایی قوی‌تره. DALL·E 3 وقتی متن در تصویر می‌خوای یا از ChatGPT استفاده می‌کنی و نمی‌خوای پلتفرم عوض کنی، بهترین گزینه‌ست.

نقطهٔ ضعفی که باید بدونی

سیستم content filter داله‌ه 3 محتاطانه‌ترین بین رقباست. ممکنه درخواست‌های کاملاً بی‌آزار رو هم رد کنه، مخصوصاً اگه کلماتی مثل «واقعی»، «شخص واقعی»، یا محتوای خشن حتی به شکل انتزاعی توش باشه. در این موارد Flux یا Stable Diffusion با پیکربندی محلی آزادی بیشتری می‌دن.

یه نکتهٔ کوچک درباره آیرا

آیرا مستقیماً تصویر تولید نمی‌کنه، این رو صادقانه بگیم. ولی اگه داری پرامپت می‌نویسی و گیر کردی، می‌خوای بین DALL·E و Midjourney تصمیم بگیری، یا نمی‌دونی چطور یه ایده رو به توصیف بصری تبدیل کنی، آیرا اینجاست. با شناخت پیوسته، سبک بصری‌ای که بهش علاقه داری رو بین جلسه‌ها یادش می‌مونه.

همچنین بخوان

بهترین AI برای تولید تصویر، مقایسهٔ کامل همه ابزارها
Midjourney، راهنمای کامل، بهترین رقیب DALL·E 3
Flux از Black Forest Labs، قوی‌ترین مدل open-weight
پرامپت‌نویسی برای تولید تصویر، تکنیک‌های عمیق‌تر

اگه از ChatGPT استفاده می‌کنی و دنبال بهترین تجربهٔ یکپارچه‌ای، DALL·E 3 طبیعی‌ترین انتخابه. اگه می‌خوای بدونی پرامپتت چطور باید باشه تا بهترین نتیجه رو بگیری، آیراچت رو امتحان کن.

آیرا تو رو می‌شناسه؛ یادشم نمی‌ره.

#تصویر و ویدیو

ادامهٔ مسیر

همهٔ مقاله‌ها ←

تصویر و ویدیو

تولید تصویر با هوش مصنوعی چیست

تولید تصویر با هوش مصنوعی چیست، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

Midjourney، راهنمای کامل

Midjourney، راهنمای کامل، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

Stable Diffusion

Stable Diffusion، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

Flux از Black Forest Labs

Flux از Black Forest Labs، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

DALL·E 3 چی هست

قابلیت‌های واقعی

دسترسی از ایران

راهنمای پرامپت‌نویسی برای DALL·E 3

DALL·E 3 در مقابل Midjourney، Flux، و Imagen

نقطهٔ ضعفی که باید بدونی

یه نکتهٔ کوچک درباره آیرا

همچنین بخوان

ادامهٔ مسیر

تولید تصویر با هوش مصنوعی چیست

Midjourney، راهنمای کامل

Stable Diffusion

Flux از Black Forest Labs

بیشتر در «تصویر و ویدیو»