چت جی پی تی

Sora — تولید ویدیو OpenAI

Sora — تولید ویدیو OpenAI — راهنمای فارسی از مجموعهٔ «چت جی پی تی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ Sora — تولید ویدیو OpenAI

وقتی اوایل ۲۰۲۴ OpenAI اولین کلیپ‌های Sora رو منتشر کرد — موج روی ساحل، ماموت‌های پشمالو توی برف، یه آدم در خیابان‌های توکیو — خیلی‌ها باورشون نمی‌شد این ویدیوها کامپیوتری ساخته شدن. کیفیت جهش بزرگی بود. ولی داستان Sora از اون اعلام اولیه تا امروز پیچیده‌تر شد.

Sora چیست؟

Sora یه مدل تولید ویدیوی AI از OpenAI‌ه که می‌تونه از متن یا تصویر، کلیپ‌های ویدیویی با کیفیت سینمایی بسازه. از نظر معماری فنی، Sora یه «Diffusion Transformer» یا DiT‌ه — ترکیب مکانیزم توجه ترنسفورمر با فرآیند diffusion که در تولید تصویر موفق بود.

نسخهٔ اول Sora در دسامبر ۲۰۲۴ به صورت عمومی عرضه شد — ۱۱ ماه بعد از اعلام اولیه.

Sora 2 و تکامل مدل

در ۲۰۲۵-۲۰۲۶ Sora نسل دوم (Sora 2) رو معرفی کرد با بهبودهای قابل توجه:

  • مدت ویدیو: از ۶ ثانیه در Sora 1 به ۱۵ تا ۲۵ ثانیه افزایش یافت
  • رزولوشن: Full HD 1080p به عنوان استاندارد پایه
  • صدا: افزودن قابلیت تولید صدای همزمان با ویدیو
  • ثبات بصری: بهبود در حفظ هویت شخصیت‌ها در طول ویدیو

تغییر بزرگ: قطع دسترسی مصرف‌کننده

اینجاست که داستان Sora جالب می‌شه. از ژانویهٔ ۲۰۲۶، OpenAI دسترسی رایگان به Sora رو قطع کرد — فقط مشترکین Plus (ماهی ۲۰ دلار) و Pro (ماهی ۲۰۰ دلار) می‌تونستن ازش استفاده کنن.

بعد از اون، در آپریل ۲۰۲۶، OpenAI دسترسی مصرف‌کننده رو کاملاً تعطیل کرد و Sora رو فقط از طریق API در دسترس گذاشت. API هم با قیمت‌های بالایی ارائه شد — Sora 2 Pro با رزولوشن 1080p در حدود ۰.۷۰ دلار در ثانیه (که بعداً به ۰.۳۵ دلار در ثانیه کاهش یافت).

خبر آخر اینه که این API هم قرار بود تا سپتامبر ۲۰۲۶ sunset بشه، که نشون‌دهندهٔ تجدیدنظر OpenAI در استراتژی ویدیوست.

چرا OpenAI این مسیر رو رفت؟

چند دلیل احتمالی وجود داره:

هزینهٔ بالای محاسباتی: تولید ویدیو به مراتب گران‌تر از تولید متن یا تصویره. یه کلیپ چند ثانیه‌ای می‌تونه معادل ده‌ها مکالمه متنی هزینه داشته باشه.

رقابت شدید: ابزارهایی مثل Runway، Kling، Hailuo با قیمت‌های پایین‌تر یا رایگان‌تر ارائه دادن و OpenAI نتونست موقعیت‌ رهبری خودش رو در این حوزه نگه داره.

تمرکز مجدد: OpenAI ممکنه منابع رو از ویدیو به سمت مدل‌های reasoning و AGI هدایت کرده باشه.

Sora در مقابل رقبا (در اوج خودش)

وقتی Sora در دسترس بود، مقایسه‌هایی که از آن می‌شد:

ویژگیSoraRunway Gen-4Kling
کیفیت تصویرعالیخوبخوب
ثبات شخصیتخوبمتوسطخوب
کنترل دوربینمحدودقویمتوسط
قیمتبالامتوسطپایین
دسترسیمحدود/قطعدر دسترسدر دسترس

دسترسی از ایران

از همان ابتدا Sora برای ایران در دسترس نبود — هم به دلیل تحریم‌های OpenAI علیه ایران، و هم به دلیل محدودیت‌های جغرافیایی که خودش اعمال کرد. حتی در دوره‌ای که مشترکین Plus دسترسی داشتن، برای کاربران ایرانی عملاً غیرقابل استفاده بود.

برای ساخت ویدیو با AI، کاربران ایرانی معمولاً به ابزارهای جایگزین مثل Runway، Kling یا Pika رو می‌آرن که البته اونا هم مستقیم در دسترس نیستن ولی با VPN عملاً قابل استفاده‌ترن.

فناوری زیر Sora

از منظر فنی، Sora با رویکرد «spacetime patches» کار می‌کنه — ویدیو رو به پچ‌های کوچیک زمانی-مکانی تجزیه می‌کنه و روی این پچ‌ها attention اعمال می‌کنه. این رویکرد برخلاف مدل‌های قبلی که فریم به فریم کار می‌کردن، درک بهتری از حرکت پیوسته می‌ده.

مقالهٔ فنی OpenAI نشون داد که Sora اصلاً «مدل دنیا» (world model) نیست — نمایش داخلی‌ای از فیزیک یا هندسه نداره، بلکه الگوهای بصری رو از روی داده‌های ویدیویی یاد گرفته. به همین دلیل گاهی اشتباهات فیزیکی می‌کنه که برای مغز انسانی آشکاره.

جمع‌بندی: Sora از آینده‌نگری تا واقعیت

Sora یکی از تأثیرگذارترین دموهای AI در تاریخ بود — نشون داد که تولید ویدیوی واقعی‌نما از متن ممکنه. ولی مسیر تجاری‌سازیش سخت‌تر از بقیهٔ محصولات OpenAI بود و فعلاً در یه بلاتکلیفی استراتژیه.

اگه دنبال ابزارهای فعلاً در دسترس برای ویدیوی AI هستی، Runway و Kling گزینه‌های پایدارتریه.

همچنین بخوان

#چت جی پی تی

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «چت جی پی تی»