تصویر و ویدیو

Sora OpenAI، راهنمای ویدیو

Sora OpenAI، راهنمای ویدیو، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ تیم آیرا•۱۲ اسفند ۱۴۰۴به‌روزرسانی: ۱۸ فروردین ۱۴۰۵•۳ دقیقه مطالعه

وقتی OpenAI اواخر ۲۰۲۴ Sora رو برای عموم باز کرد، ادعاش این بود که مدلی ساخته که «دنیای فیزیکی رو می‌فهمه». بعد از چند ماه استفادهٔ واقعی، یه چیزی روشن شده: Sora در برخی سناریوها باورنکردنیه، و در بعضی جاها هنوز با مشکلات پایه دست و پنجه نرم می‌کنه. این مقاله هر دو طرف رو بی‌تعارف بررسی می‌کنه.

Sora چی هست و چطور کار می‌کنه

Sora یه مدل text-to-video از OpenAI‌ه که روی معماری diffusion transformer آموزش دیده، ترکیبی از آنچه در تصویر کار می‌کنه با درک زمانی برای ویدیو. ورودی اصلی‌اش متنه، ولی نسخه‌های جدیدتر image-to-video و video-to-video هم پشتیبانی می‌کنن.

چیزی که Sora رو متمایز می‌کنه اینه که طول ویدیو رو به عنوان یک پارامتر اول-درجه می‌بینه، نه مثل مدل‌های قدیمی که ویدیو رو فریم به فریم می‌ساختن. نتیجه: حرکت دوربین، نور، و حتی برخورد اجسام در طول کلیپ نسبتاً منسجم می‌مونن.

قابلیت‌های واقعی در ۲۰۲۶

طول و رزولوشن: تا ۲۰ ثانیه در رزولوشن ۱۰۸۰p. ورژن‌های پریمیوم‌تر تا ۱۲۰ ثانیه هم دارن.

سبک‌های بصری: سینماتیک واقع‌گرایانه، انیمیشن، استاپ-موشن، پینت‌برلاش، Sora در پیروی از سبک وقتی توصیف تصویری دقیق بدی قوی عمل می‌کنه.

حرکت دوربین: می‌تونی صریح بگی «دالی شات از چپ»، «هلیکال پول-بک» یا «استدی-کم ترکینگ»، مدل معمولاً بهشون گوش می‌ده.

ویرایش ویدیو با پرامپت: می‌شه یه ویدیوی موجود آپلود کرد و با توصیف متنی تغییرش داد، مثلاً «روز رو به شب تبدیل کن» یا «یه سگ رو به گربه تبدیل کن».

محدودیت‌های جدی: فیزیک پیچیده (سقوط آزاد، برخورد اجسام سخت) هنوز گاهی دچار خطا می‌شه. متن درون ویدیو تقریباً همیشه نادرست رندر می‌شه. چهره‌ها در کلیپ‌های طولانی‌تر از ده ثانیه ممکنه ناگهانی تغییر کنن. صدا جداگانه باید تولید بشه.

Sora در مقابل Runway، Kling، و Pika

	Sora	Runway Gen-3	Kling	Pika
حداکثر طول	۱۲۰ ثانیه	۱۸ ثانیه	۳ دقیقه	۱۵ ثانیه
کیفیت سینماتیک	★★★★★	★★★★☆	★★★★☆	★★★☆☆
image-to-video	بله	بله	بله	بله
کنترل دوربین	عالی	خوب	متوسط	محدود
قیمت	از ۲۵$/ماه	از ۱۵$/ماه	از ۱۰$/ماه	رایگان+پولی

Runway در image-to-video با زمینه‌های آرام‌تر (پرتره، منظره) نتایج پخته‌تری می‌ده. Kling در طول کلیپ پیشتازه و برای محتوای تجاری ارزان‌تره. Pika برای ویرایش سریع و استایل‌های کارتونی بهتره. Sora وقتی پرامپت سینماتیک دقیق داری و می‌خوای کنترل دوربین واقعی، ارزشش بیشتره.

دسترسی از ایران، واقعیت رک

Sora از طریق ChatGPT Plus (ماهانه ۲۰ دلار) و ChatGPT Pro (ماهانه ۲۰۰ دلار) در دسترسه. هیچ‌کدام برای کارت‌های ایرانی مستقیم کار نمی‌کنن. مسیرهای رایج:

اکانت شیر شده (chatgpt-shared-subscription): ارزان‌ترین گزینه، ولی محدودیت استفادهٔ همزمان داره
کارت ارزی (از صرافی‌های معتبر): مستقل‌ترین گزینه
VPN + پرداخت دلاری: نیاز به آدرس بیلینگ آمریکایی داره

تحریم‌ها Sora رو از ایران بلاک می‌کنن، برخلاف بعضی ادعاها، آی‌پی ایران به تنهایی کافی نیست.

پرامپت‌نویسی برای Sora

پرامپت‌های کوتاه برای Sora ضعیف عمل می‌کنن. ساختار ایده‌آل این پنج عنصر رو داره:

۱. موضوع، دقیق: «یه مرد میان‌سال با کت خاکستری» ۲. محیط، نور، مکان، زمان: «در یه کافهٔ شلوغ پاریسی، نور طلایی غروب» ۳. حرکت دوربین، «دوربین به آرامی به سمتش می‌ره (slow push-in)» ۴. اکشن، «داره کتاب می‌خونه، هر از چند گاهی سرش رو بالا می‌کنه» ۵. سبک، «سینمای ۳۵ میلی‌متری، depth of field کم، رنگ‌بندی گرم»

پرامپت فارسی؟ Sora اون رو می‌فهمه ولی خروجی انگلیسی پرامپت‌های فنی‌تر بیشتر قابل پیش‌بینیه.

یه نکتهٔ کاربردی برای پرامپت با آیرا

آیراچت مستقیماً ویدیو تولید نمی‌کنه، این یه حقیقت ساده‌ست. ولی وقتی می‌خوای پرامپت سینماتیک دقیقی برای Sora بنویسی و نمی‌دونی از کجا شروع کنی، آیرا می‌تونه کمک کنه پرامپت رو ساختار بدی، اصطلاحات درست رو پیدا کنی، یا نسخه‌های مختلف رو امتحان کنی. اگه شناخت پیوسته داشته باشه، سبک و سلیقهٔ بصری تو رو بین جلسه‌ها نگه می‌داره.

همچنین بخوان

بهترین AI برای ساخت ویدیو، مقایسهٔ کامل همه ابزارها
Runway، تولید ویدیو با هوش مصنوعی، رقیب اصلی Sora
Kling، ویدیو هوش مصنوعی، بهترین گزینه برای کلیپ بلند
Higgsfield، ویدیو با کنترل حرکت، مخصوص کنترل دوربین

اگه ویدیوی سینماتیک می‌خوای و پرامپت دقیق داری، Sora رو جدی بگیر. اگه دنبال طول بیشتر یا قیمت پایین‌تری، Kling رو ببین. برای شروع نوشتن اون پرامپت دقیق، آیراچت رو باز کن.

آیرا تو رو می‌شناسه؛ یادشم نمی‌ره.

#تصویر و ویدیو

ادامهٔ مسیر

همهٔ مقاله‌ها ←

تصویر و ویدیو

تولید تصویر با هوش مصنوعی چیست

تولید تصویر با هوش مصنوعی چیست، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

Midjourney، راهنمای کامل

Midjourney، راهنمای کامل، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

DALL-E 3، راهنمای عمیق

DALL-E 3، راهنمای عمیق، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تصویر و ویدیو

Stable Diffusion

Stable Diffusion، راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Sora چی هست و چطور کار می‌کنه

قابلیت‌های واقعی در ۲۰۲۶

Sora در مقابل Runway، Kling، و Pika

دسترسی از ایران، واقعیت رک

پرامپت‌نویسی برای Sora

یه نکتهٔ کاربردی برای پرامپت با آیرا

همچنین بخوان

ادامهٔ مسیر

تولید تصویر با هوش مصنوعی چیست

Midjourney، راهنمای کامل

DALL-E 3، راهنمای عمیق

Stable Diffusion

بیشتر در «تصویر و ویدیو»