چت جی پی تی

DALL-E 3 — تولید تصویر OpenAI

DALL-E 3 — تولید تصویر OpenAI — راهنمای فارسی از مجموعهٔ «چت جی پی تی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ DALL-E 3 — تولید تصویر OpenAI

DALL-E 3 تا امروز قوی‌ترین مدل تولید تصویر OpenAI است — و بر خلاف نسخه‌های قبلی، مستقیم داخل ChatGPT نشسته. یعنی به جای اینکه یه پرامپت تخصصی بنویسی، فقط توضیح می‌دی چی می‌خوای و ChatGPT پرامپت رو برات بهینه می‌کنه. این مقاله قابلیت‌های واقعیش، نقاط قوت، محدودیت‌ها، و مقایسه‌اش با رقبا رو توضیح می‌ده.

DALL-E 3 چطور کار می‌کنه؟

DALL-E 3 یه مدل text-to-image است که OpenAI در اکتبر ۲۰۳ منتشر کرد. مهم‌ترین تفاوتش با DALL-E 2:

ChatGPT به‌عنوان پرامپت‌نویس: وقتی از ChatGPT می‌خوای تصویر بسازه، مدل زبانی اول پرامپتت رو بازنویسی و غنی‌تر می‌کنه، بعد به DALL-E 3 می‌فرسته. این یعنی حتی با توضیح ساده («یه گربه توی کافه‌ای در تهران») خروجی قابل قبول می‌گیری.

Text rendering بهتر: DALL-E 3 در رندر کردن متن داخل تصویر نسبت به نسخه‌های قبلی خیلی بهتر شد. ولی هنوز برای متن فارسی خوب نیست — حروف عربی رو قطعاً اشتباه رندر می‌کنه.

پیروی از پرامپت: اگه پرامپت دقیق بدی، DALL-E 3 جزئیات رو بهتر از رقبا رعایت می‌کنه. «یه مرد با کلاه قرمز و عینک آبی کنار پنجره» — معمولاً دقیق اجرا می‌کنه.

چطور بهش دسترسی داری؟

از طریق ChatGPT: اگه ChatGPT Plus داری، کافیه توی مکالمه بنویسی «یه تصویر بساز از...». هر روز تعداد مشخصی تصویر رایگان داری — تعداد دقیق بسته به بار سرور تغییر می‌کنه.

از طریق API: می‌تونی مستقیم با API OpenAI کار کنی. قیمت‌گذاری per-image است:

  • Standard quality, 1024×1024: حدود $0.04 هر تصویر
  • HD quality, 1024×1024: حدود $0.08 هر تصویر
  • سایزهای بزرگ‌تر (1024×1792 یا 1792×1024): کمی گران‌تر

از ایران: دسترسی مستقیم ممکن نیست. VPN نیاز داری و پرداخت دلاری برای API.

رزولوشن‌ها و فرمت‌ها

DALL-E 3 سه رزولوشن پشتیبانی می‌کنه:

  • 1024×1024 — مربعی، مناسب پست اینستاگرام
  • 1792×1024 — افقی (landscape)
  • 1024×1792 — عمودی (portrait)، مناسب استوری

خروجی به‌صورت URL موقت یا base64 میاد. فرمت PNG است.

نقاط قوت واقعی

کاربردهای خوب:

  • تصویرسازی مفهومی — ایده‌های انتزاعی رو به تصویر تبدیل می‌کنه خوب
  • طراحی placeholder — تصاویر اولیه برای wireframe یا mockup
  • تولید محتوا — پست شبکهٔ اجتماعی، بنر ساده
  • تصویرسازی کتاب/داستان — شخصیت‌ها و صحنه‌ها

چیزی که واقعاً خوب بلده:

«یه کافهٔ دنج در تهران، شب، باران، نور گرم از پنجره، سبک نقاشی آبرنگ» — این نوع توضیحات تصویری رو خیلی خوب می‌سازه.

محدودیت‌های مهم

سیاست محتوا: OpenAI محدودیت‌های سختی داره. نمی‌تونی تصویر افراد مشهور، محتوای خشن، نیمه‌برهنه، یا هر چیزی که «harmful» تشخیص بده بسازی. این فیلترها گاهی بیش از حد محدودکننده‌ان.

بازتولید ناپذیری: اگه پرامپت عین هم باشه، خروجی‌ها فرق دارن. نمی‌تونی یه تصویر رو «دوباره بسازی». با seed هم کنترل کامل نداری.

فارسی در تصویر: کلمات و جملات فارسی داخل تصویر رو غلط رندر می‌کنه — برای بنرهای فارسی‌زبان باید بعداً با Canva یا Photoshop متن اضافه کنی.

ویرایش محدود: DALL-E 3 قابلیت inpainting (ویرایش بخش خاصی از تصویر) داره ولی در ChatGPT این قابلیت هنوز محدوده.

عدم consistency شخصیت: اگه یه شخصیت بسازی و بخوای در تصاویر بعدی «همون آدم» باشه، نمی‌تونی. هر بار متفاوته. این مشکل بزرگ موشن‌استوری‌کارها و داستان‌نویس‌هاست.

مقایسه با رقبا

مدلقوتضعفدسترسی رایگان؟
DALL-E 3پیروی از پرامپت، text renderingمحدودیت محتوا، consistencyمحدود (ChatGPT)
Midjourneyکیفیت هنریUI پیچیده، نیاز به Discordنه
Stable Diffusionکنترل کامل، open sourceنیاز به دانش فنیبله (self-host)
Flux (BFL)کیفیت بالا، سریعAPI-onlyبله (Hugging Face)
Imagen 3واقع‌گراییفقط Google Cloudمحدود (Gemini)

برای یه کاربر عادی که می‌خواد سریع تصویر بسازه، DALL-E 3 داخل ChatGPT راحت‌ترین گزینه‌ست. برای کیفیت هنری حرفه‌ای، Midjourney جلوتره. برای کنترل کامل، Stable Diffusion یا Flux.

پرامپت‌نویسی موثر برای DALL-E 3

چون ChatGPT پرامپت رو بازنویسی می‌کنه، نیازی به پرامپت‌های خیلی پیچیده نیست. ولی این ساختار بهتر جواب می‌ده:

[موضوع اصلی] + [سبک بصری] + [نورپردازی] + [جزئیات] + [mood]

مثال: «یه برنامه‌نویس با لپ‌تاپ در یه دفتر مینیمال، نور طبیعی از پنجره، سبک عکاسی خبری، احساس تمرکز و آرامش»

چیزی که باید بداری این است که اگه دقیقاً «یه عنصر نباید باشه» رو هم بنویسی کمک می‌کنه: «بدون متن داخل تصویر».

همچنین بخوان

#چت جی پی تی

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «چت جی پی تی»