تصویر و ویدیو

Sora OpenAI — راهنمای ویدیو

Sora OpenAI — راهنمای ویدیو — راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ Sora OpenAI — راهنمای ویدیو

وقتی OpenAI اواخر ۲۰۲۴ Sora رو برای عموم باز کرد، ادعاش این بود که مدلی ساخته که «دنیای فیزیکی رو می‌فهمه». بعد از چند ماه استفادهٔ واقعی، یه چیزی روشن شده: Sora در برخی سناریوها باورنکردنیه، و در بعضی جاها هنوز با مشکلات پایه دست و پنجه نرم می‌کنه. این مقاله هر دو طرف رو بی‌تعارف بررسی می‌کنه.

Sora چی هست و چطور کار می‌کنه

Sora یه مدل text-to-video از OpenAI‌ه که روی معماری diffusion transformer آموزش دیده — ترکیبی از آنچه در تصویر کار می‌کنه با درک زمانی برای ویدیو. ورودی اصلی‌اش متنه، ولی نسخه‌های جدیدتر image-to-video و video-to-video هم پشتیبانی می‌کنن.

چیزی که Sora رو متمایز می‌کنه اینه که طول ویدیو رو به عنوان یک پارامتر اول-درجه می‌بینه، نه مثل مدل‌های قدیمی که ویدیو رو فریم به فریم می‌ساختن. نتیجه: حرکت دوربین، نور، و حتی برخورد اجسام در طول کلیپ نسبتاً منسجم می‌مونن.

قابلیت‌های واقعی در ۲۰۲۶

طول و رزولوشن: تا ۲۰ ثانیه در رزولوشن ۱۰۸۰p. ورژن‌های پریمیوم‌تر تا ۱۲۰ ثانیه هم دارن.

سبک‌های بصری: سینماتیک واقع‌گرایانه، انیمیشن، استاپ-موشن، پینت‌برلاش — Sora در پیروی از سبک وقتی توصیف تصویری دقیق بدی قوی عمل می‌کنه.

حرکت دوربین: می‌تونی صریح بگی «دالی شات از چپ»، «هلیکال پول-بک» یا «استدی-کم ترکینگ» — مدل معمولاً بهشون گوش می‌ده.

ویرایش ویدیو با پرامپت: می‌شه یه ویدیوی موجود آپلود کرد و با توصیف متنی تغییرش داد — مثلاً «روز رو به شب تبدیل کن» یا «یه سگ رو به گربه تبدیل کن».

محدودیت‌های جدی: فیزیک پیچیده (سقوط آزاد، برخورد اجسام سخت) هنوز گاهی دچار خطا می‌شه. متن درون ویدیو تقریباً همیشه نادرست رندر می‌شه. چهره‌ها در کلیپ‌های طولانی‌تر از ده ثانیه ممکنه ناگهانی تغییر کنن. صدا جداگانه باید تولید بشه.

Sora در مقابل Runway، Kling، و Pika

SoraRunway Gen-3KlingPika
حداکثر طول۱۲۰ ثانیه۱۸ ثانیه۳ دقیقه۱۵ ثانیه
کیفیت سینماتیک★★★★★★★★★☆★★★★☆★★★☆☆
image-to-videoبلهبلهبلهبله
کنترل دوربینعالیخوبمتوسطمحدود
قیمتاز ۲۵$/ماهاز ۱۵$/ماهاز ۱۰$/ماهرایگان+پولی

Runway در image-to-video با زمینه‌های آرام‌تر (پرتره، منظره) نتایج پخته‌تری می‌ده. Kling در طول کلیپ پیشتازه و برای محتوای تجاری ارزان‌تره. Pika برای ویرایش سریع و استایل‌های کارتونی بهتره. Sora وقتی پرامپت سینماتیک دقیق داری و می‌خوای کنترل دوربین واقعی، ارزشش بیشتره.

دسترسی از ایران — واقعیت رک

Sora از طریق ChatGPT Plus (ماهانه ۲۰ دلار) و ChatGPT Pro (ماهانه ۲۰۰ دلار) در دسترسه. هیچ‌کدام برای کارت‌های ایرانی مستقیم کار نمی‌کنن. مسیرهای رایج:

  • اکانت شیر شده (chatgpt-shared-subscription): ارزان‌ترین گزینه، ولی محدودیت استفادهٔ همزمان داره
  • کارت ارزی (از صرافی‌های معتبر): مستقل‌ترین گزینه
  • VPN + پرداخت دلاری: نیاز به آدرس بیلینگ آمریکایی داره

تحریم‌ها Sora رو از ایران بلاک می‌کنن — برخلاف بعضی ادعاها، آی‌پی ایران به تنهایی کافی نیست.

پرامپت‌نویسی برای Sora

پرامپت‌های کوتاه برای Sora ضعیف عمل می‌کنن. ساختار ایده‌آل این پنج عنصر رو داره:

۱. موضوع — دقیق: «یه مرد میان‌سال با کت خاکستری» ۲. محیط — نور، مکان، زمان: «در یه کافهٔ شلوغ پاریسی، نور طلایی غروب» ۳. حرکت دوربین — «دوربین به آرامی به سمتش می‌ره (slow push-in)» ۴. اکشن — «داره کتاب می‌خونه، هر از چند گاهی سرش رو بالا می‌کنه» ۵. سبک — «سینمای ۳۵ میلی‌متری، depth of field کم، رنگ‌بندی گرم»

پرامپت فارسی؟ Sora اون رو می‌فهمه ولی خروجی انگلیسی پرامپت‌های فنی‌تر بیشتر قابل پیش‌بینیه.

یه نکتهٔ کاربردی برای پرامپت با آیرا

آیراچت مستقیماً ویدیو تولید نمی‌کنه — این یه حقیقت ساده‌ست. ولی وقتی می‌خوای پرامپت سینماتیک دقیقی برای Sora بنویسی و نمی‌دونی از کجا شروع کنی، آیرا می‌تونه کمک کنه پرامپت رو ساختار بدی، اصطلاحات درست رو پیدا کنی، یا نسخه‌های مختلف رو امتحان کنی. اگه شناخت پیوسته داشته باشه، سبک و سلیقهٔ بصری تو رو بین جلسه‌ها نگه می‌داره.

همچنین بخوان


اگه ویدیوی سینماتیک می‌خوای و پرامپت دقیق داری، Sora رو جدی بگیر. اگه دنبال طول بیشتر یا قیمت پایین‌تری، Kling رو ببین. برای شروع نوشتن اون پرامپت دقیق، آیراچت رو باز کن.

آیرا تو رو می‌شناسه؛ یادشم نمی‌ره.

#تصویر و ویدیو

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «تصویر و ویدیو»