تصویر و ویدیو

DALL-E 3 — راهنمای عمیق

DALL-E 3 — راهنمای عمیق — راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ DALL-E 3 — راهنمای عمیق

DALL·E 3 از اون مدل‌هاییه که نقطهٔ عطف واقعی توش اینه که پرامپت‌هات رو خودش بازنویسی می‌کنه. این یه تغییر رویکرد بنیادیه — نه تو باید یاد بگیری چطور با مدل حرف بزنی، بلکه مدل سعی می‌کنه منظورت رو بفهمه. این یه مزیته، و گاهی یه نقطهٔ ضعف.

DALL·E 3 چی هست

DALL·E 3 مدل تولید تصویر OpenAI‌ه که اواخر ۲۰۲۳ معرفی شد و از طریق ChatGPT و API در دسترسه. تفاوت اصلی‌اش با DALL·E 2 در دو چیزه: درک مفهومی عمیق‌تر از پرامپت، و قابلیت رندر متن داخل تصویر.

زیر این مدل یه سیستم «prompt rewriting» داره — وقتی چیزی می‌نویسی، ChatGPT اون رو به یه پرامپت مفصل‌تر برای DALL·E تبدیل می‌کنه. این کمک می‌کنه نتایج بهتری از توصیف‌های ساده بگیری، ولی در عوض کنترل دقیق رو کمی سخت‌تر می‌کنه.

قابلیت‌های واقعی

رزولوشن: استاندارد ۱۰۲۴x۱۰۲۴ پیکسل. از طریق API می‌شه ۱۷۹۲x۱۰۲۴ (landscape) یا ۱۰۲۴x۱۷۹۲ (portrait) هم خواست.

متن در تصویر: این ویژگی‌ای‌ه که DALL·E 3 رو از اکثر رقبا جدا می‌کنه. اگه بگی «یه پوستر با نوشتهٔ Welcome» خیلی وقت‌ها درست رندر می‌کنه. این کار در Midjourney و Stable Diffusion تا همین اواخر ضعیف بود.

سبک‌های بصری: عکاسی واقع‌گرایانه، نقاشی رنگ روغن، آبرنگ، وکتور، ایزومتریک، pixel art — تنوع خوبیه. سبک‌های هنرمند خاص رو به دلایل کپی‌رایت محدود کردن.

چه چیزهایی ضعیفه: دست‌ها هنوز گاهی مشکل دارن (اگرچه بهتر از قبل). ایجاد شخصیت ثابت در چند تصویر مختلف سخته. تصاویر خیلی شلوغ با اجزای زیاد کیفیت پایین‌تری دارن. انیمیشن و ویدیو ندارد.

دسترسی از ایران

DALL·E 3 از طریق سه مسیر در دسترسه:

۱. ChatGPT Plus/Pro: مستقیم‌ترین راه، ولی نیاز به اشتراک دلاری داره. اکانت اشتراکی ارزان‌ترین گزینه‌ست.

۲. API: برای توسعه‌دهنده‌ها. هر تصویر ۱۰۲۴x۱۰۲۴ حدود ۰.۰۴ دلار. با کارت ارزی کار می‌کنه.

۳. Bing Image Creator: مایکروسافت از DALL·E 3 در Bing استفاده می‌کنه و رایگانه — ولی با VPN و دسترسی محدودتر.

تحریم‌ها IP ایران رو بلاک می‌کنن، VPN الزامیه.

راهنمای پرامپت‌نویسی برای DALL·E 3

چون DALL·E 3 پرامپت رو بازنویسی می‌کنه، بهترین نتیجه رو وقتی می‌گیری که پرامپتت مفهومی و صادقانه باشه — نه صرفاً فنی.

ساختار پیشنهادی:

[موضوع اصلی]، [محیط/فضا]، [سبک بصری]، [نور]، [جزئیات خاص]

مثال ضعیف: «یه گربه کنار پنجره»

مثال قوی: «یه گربهٔ نارنجی پیر روی لبهٔ پنجرهٔ چوبی قدیمی در یه روز بارانی، سبک نقاشی آبرنگ، نور ملایم خاکستری از پنجره، ضربات قلم مشخص»

برای متن در تصویر: کلمه‌ها رو داخل گیومه بذار — مثلاً: «یه لوگو با نوشتهٔ "AiraChat" به فونت مدرن، پس‌زمینهٔ تیره، رنگ بنفش».

پرامپت فارسی: DALL·E 3 پرامپت فارسی می‌فهمه و نسبتاً خوب کار می‌کنه. ولی برای مفاهیم بصری تخصصی یا اصطلاحات فنی (مثل «bokeh»، «chiaroscuro»، «rule of thirds»)، انگلیسی نتایج قابل‌پیش‌بینی‌تری می‌ده.

DALL·E 3 در مقابل Midjourney، Flux، و Imagen

DALL·E 3Midjourney v6Flux ProImagen 3
رندر متنعالیمتوسطخوبخوب
واقع‌گرایی عکسیخوبعالیعالیعالی
کنترل سبک هنریمتوسطعالیخوبمتوسط
دسترسی برای ایرانیسختسخت‌ترنسبتاً راحتسخت
قیمت۰.۰۴$/تصویراز ۱۰$/ماهاز ۰.۰۵$/تصویراز طریق Gemini

Midjourney در زیباشناسی هنری و سبک‌های خاص پیشتازه — اگه دنبال تصویری می‌گردی که «هنری» به نظر برسه، اونجا بهتری. Flux کنترل بیشتری می‌ده و در واقع‌گرایی قوی‌تره. DALL·E 3 وقتی متن در تصویر می‌خوای یا از ChatGPT استفاده می‌کنی و نمی‌خوای پلتفرم عوض کنی، بهترین گزینه‌ست.

نقطهٔ ضعفی که باید بدونی

سیستم content filter داله‌ه 3 محتاطانه‌ترین بین رقباست. ممکنه درخواست‌های کاملاً بی‌آزار رو هم رد کنه — مخصوصاً اگه کلماتی مثل «واقعی»، «شخص واقعی»، یا محتوای خشن حتی به شکل انتزاعی توش باشه. در این موارد Flux یا Stable Diffusion با پیکربندی محلی آزادی بیشتری می‌دن.

یه نکتهٔ کوچک درباره آیرا

آیرا مستقیماً تصویر تولید نمی‌کنه — این رو صادقانه بگیم. ولی اگه داری پرامپت می‌نویسی و گیر کردی، می‌خوای بین DALL·E و Midjourney تصمیم بگیری، یا نمی‌دونی چطور یه ایده رو به توصیف بصری تبدیل کنی، آیرا اینجاست. با شناخت پیوسته، سبک بصری‌ای که بهش علاقه داری رو بین جلسه‌ها یادش می‌مونه.

همچنین بخوان


اگه از ChatGPT استفاده می‌کنی و دنبال بهترین تجربهٔ یکپارچه‌ای، DALL·E 3 طبیعی‌ترین انتخابه. اگه می‌خوای بدونی پرامپتت چطور باید باشه تا بهترین نتیجه رو بگیری، آیراچت رو امتحان کن.

آیرا تو رو می‌شناسه؛ یادشم نمی‌ره.

#تصویر و ویدیو

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «تصویر و ویدیو»