Sora OpenAI — راهنمای ویدیو
Sora OpenAI — راهنمای ویدیو — راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

وقتی OpenAI اواخر ۲۰۲۴ Sora رو برای عموم باز کرد، ادعاش این بود که مدلی ساخته که «دنیای فیزیکی رو میفهمه». بعد از چند ماه استفادهٔ واقعی، یه چیزی روشن شده: Sora در برخی سناریوها باورنکردنیه، و در بعضی جاها هنوز با مشکلات پایه دست و پنجه نرم میکنه. این مقاله هر دو طرف رو بیتعارف بررسی میکنه.
Sora چی هست و چطور کار میکنه
Sora یه مدل text-to-video از OpenAIه که روی معماری diffusion transformer آموزش دیده — ترکیبی از آنچه در تصویر کار میکنه با درک زمانی برای ویدیو. ورودی اصلیاش متنه، ولی نسخههای جدیدتر image-to-video و video-to-video هم پشتیبانی میکنن.
چیزی که Sora رو متمایز میکنه اینه که طول ویدیو رو به عنوان یک پارامتر اول-درجه میبینه، نه مثل مدلهای قدیمی که ویدیو رو فریم به فریم میساختن. نتیجه: حرکت دوربین، نور، و حتی برخورد اجسام در طول کلیپ نسبتاً منسجم میمونن.
قابلیتهای واقعی در ۲۰۲۶
طول و رزولوشن: تا ۲۰ ثانیه در رزولوشن ۱۰۸۰p. ورژنهای پریمیومتر تا ۱۲۰ ثانیه هم دارن.
سبکهای بصری: سینماتیک واقعگرایانه، انیمیشن، استاپ-موشن، پینتبرلاش — Sora در پیروی از سبک وقتی توصیف تصویری دقیق بدی قوی عمل میکنه.
حرکت دوربین: میتونی صریح بگی «دالی شات از چپ»، «هلیکال پول-بک» یا «استدی-کم ترکینگ» — مدل معمولاً بهشون گوش میده.
ویرایش ویدیو با پرامپت: میشه یه ویدیوی موجود آپلود کرد و با توصیف متنی تغییرش داد — مثلاً «روز رو به شب تبدیل کن» یا «یه سگ رو به گربه تبدیل کن».
محدودیتهای جدی: فیزیک پیچیده (سقوط آزاد، برخورد اجسام سخت) هنوز گاهی دچار خطا میشه. متن درون ویدیو تقریباً همیشه نادرست رندر میشه. چهرهها در کلیپهای طولانیتر از ده ثانیه ممکنه ناگهانی تغییر کنن. صدا جداگانه باید تولید بشه.
Sora در مقابل Runway، Kling، و Pika
| Sora | Runway Gen-3 | Kling | Pika | |
|---|---|---|---|---|
| حداکثر طول | ۱۲۰ ثانیه | ۱۸ ثانیه | ۳ دقیقه | ۱۵ ثانیه |
| کیفیت سینماتیک | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
| image-to-video | بله | بله | بله | بله |
| کنترل دوربین | عالی | خوب | متوسط | محدود |
| قیمت | از ۲۵$/ماه | از ۱۵$/ماه | از ۱۰$/ماه | رایگان+پولی |
Runway در image-to-video با زمینههای آرامتر (پرتره، منظره) نتایج پختهتری میده. Kling در طول کلیپ پیشتازه و برای محتوای تجاری ارزانتره. Pika برای ویرایش سریع و استایلهای کارتونی بهتره. Sora وقتی پرامپت سینماتیک دقیق داری و میخوای کنترل دوربین واقعی، ارزشش بیشتره.
دسترسی از ایران — واقعیت رک
Sora از طریق ChatGPT Plus (ماهانه ۲۰ دلار) و ChatGPT Pro (ماهانه ۲۰۰ دلار) در دسترسه. هیچکدام برای کارتهای ایرانی مستقیم کار نمیکنن. مسیرهای رایج:
- اکانت شیر شده (chatgpt-shared-subscription): ارزانترین گزینه، ولی محدودیت استفادهٔ همزمان داره
- کارت ارزی (از صرافیهای معتبر): مستقلترین گزینه
- VPN + پرداخت دلاری: نیاز به آدرس بیلینگ آمریکایی داره
تحریمها Sora رو از ایران بلاک میکنن — برخلاف بعضی ادعاها، آیپی ایران به تنهایی کافی نیست.
پرامپتنویسی برای Sora
پرامپتهای کوتاه برای Sora ضعیف عمل میکنن. ساختار ایدهآل این پنج عنصر رو داره:
۱. موضوع — دقیق: «یه مرد میانسال با کت خاکستری» ۲. محیط — نور، مکان، زمان: «در یه کافهٔ شلوغ پاریسی، نور طلایی غروب» ۳. حرکت دوربین — «دوربین به آرامی به سمتش میره (slow push-in)» ۴. اکشن — «داره کتاب میخونه، هر از چند گاهی سرش رو بالا میکنه» ۵. سبک — «سینمای ۳۵ میلیمتری، depth of field کم، رنگبندی گرم»
پرامپت فارسی؟ Sora اون رو میفهمه ولی خروجی انگلیسی پرامپتهای فنیتر بیشتر قابل پیشبینیه.
یه نکتهٔ کاربردی برای پرامپت با آیرا
آیراچت مستقیماً ویدیو تولید نمیکنه — این یه حقیقت سادهست. ولی وقتی میخوای پرامپت سینماتیک دقیقی برای Sora بنویسی و نمیدونی از کجا شروع کنی، آیرا میتونه کمک کنه پرامپت رو ساختار بدی، اصطلاحات درست رو پیدا کنی، یا نسخههای مختلف رو امتحان کنی. اگه شناخت پیوسته داشته باشه، سبک و سلیقهٔ بصری تو رو بین جلسهها نگه میداره.
همچنین بخوان
- بهترین AI برای ساخت ویدیو — مقایسهٔ کامل همه ابزارها
- Runway — تولید ویدیو با هوش مصنوعی — رقیب اصلی Sora
- Kling — ویدیو هوش مصنوعی — بهترین گزینه برای کلیپ بلند
- Higgsfield — ویدیو با کنترل حرکت — مخصوص کنترل دوربین
اگه ویدیوی سینماتیک میخوای و پرامپت دقیق داری، Sora رو جدی بگیر. اگه دنبال طول بیشتر یا قیمت پایینتری، Kling رو ببین. برای شروع نوشتن اون پرامپت دقیق، آیراچت رو باز کن.
آیرا تو رو میشناسه؛ یادشم نمیره.
ادامهٔ مسیر
همهٔ مقالهها ←
تولید تصویر با هوش مصنوعی چیست
تولید تصویر با هوش مصنوعی چیست — راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Midjourney — راهنمای کامل
Midjourney — راهنمای کامل — راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

DALL-E 3 — راهنمای عمیق
DALL-E 3 — راهنمای عمیق — راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Stable Diffusion
Stable Diffusion — راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.
بیشتر در «تصویر و ویدیو»
- Flux از Black Forest Labs
- nano banana
- Veo گوگل — راهنمای ویدیو
- Kling — تولید ویدیو با AI
- Runway — استودیوی ویدیویی AI
- Higgsfield — کنترل دوربین در ویدیوی AI
- Hailuo (Minimax)
- Pika
- Leonardo و Ideogram
- ControlNet — کنترل دقیق Stable Diffusion
- Lip sync و face swap
- پرامپتنویسی برای تولید تصویر
- AI video editing
- AI برای موسیقی — Suno و Udio
- اخلاق در deepfake