چت جی پی تی

Sora، تولید ویدیو OpenAI

Sora، تولید ویدیو OpenAI، راهنمای فارسی از مجموعهٔ «چت جی پی تی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ تیم آیرا•۹ فروردین ۱۴۰۵به‌روزرسانی: ۱۳ فروردین ۱۴۰۵•۳ دقیقه مطالعه

وقتی اوایل ۲۰۲۴ OpenAI اولین کلیپ‌های Sora رو منتشر کرد، موج روی ساحل، ماموت‌های پشمالو توی برف، یه آدم در خیابان‌های توکیو، خیلی‌ها باورشون نمی‌شد این ویدیوها کامپیوتری ساخته شدن. کیفیت جهش بزرگی بود. ولی داستان Sora از اون اعلام اولیه تا امروز پیچیده‌تر شد.

Sora چیست؟

Sora یه مدل تولید ویدیوی AI از OpenAI‌ه که می‌تونه از متن یا تصویر، کلیپ‌های ویدیویی با کیفیت سینمایی بسازه. از نظر معماری فنی، Sora یه «Diffusion Transformer» یا DiT‌ه، ترکیب مکانیزم توجه ترنسفورمر با فرآیند diffusion که در تولید تصویر موفق بود.

نسخهٔ اول Sora در دسامبر ۲۰۲۴ به صورت عمومی عرضه شد، ۱۱ ماه بعد از اعلام اولیه.

Sora 2 و تکامل مدل

در ۲۰۲۵-۲۰۲۶ Sora نسل دوم (Sora 2) رو معرفی کرد با بهبودهای قابل توجه:

مدت ویدیو: از ۶ ثانیه در Sora 1 به ۱۵ تا ۲۵ ثانیه افزایش یافت
رزولوشن: Full HD 1080p به عنوان استاندارد پایه
صدا: افزودن قابلیت تولید صدای همزمان با ویدیو
ثبات بصری: بهبود در حفظ هویت شخصیت‌ها در طول ویدیو

تغییر بزرگ: قطع دسترسی مصرف‌کننده

اینجاست که داستان Sora جالب می‌شه. از ژانویهٔ ۲۰۲۶، OpenAI دسترسی رایگان به Sora رو قطع کرد، فقط مشترکین Plus (ماهی ۲۰ دلار) و Pro (ماهی ۲۰۰ دلار) می‌تونستن ازش استفاده کنن.

بعد از اون، در آپریل ۲۰۲۶، OpenAI دسترسی مصرف‌کننده رو کاملاً تعطیل کرد و Sora رو فقط از طریق API در دسترس گذاشت. API هم با قیمت‌های بالایی ارائه شد، Sora 2 Pro با رزولوشن 1080p در حدود ۰.۷۰ دلار در ثانیه (که بعداً به ۰.۳۵ دلار در ثانیه کاهش یافت).

خبر آخر اینه که این API هم قرار بود تا سپتامبر ۲۰۲۶ sunset بشه، که نشون‌دهندهٔ تجدیدنظر OpenAI در استراتژی ویدیوست.

چرا OpenAI این مسیر رو رفت؟

چند دلیل احتمالی وجود داره:

هزینهٔ بالای محاسباتی: تولید ویدیو به مراتب گران‌تر از تولید متن یا تصویره. یه کلیپ چند ثانیه‌ای می‌تونه معادل ده‌ها مکالمه متنی هزینه داشته باشه.

رقابت شدید: ابزارهایی مثل Runway، Kling، Hailuo با قیمت‌های پایین‌تر یا رایگان‌تر ارائه دادن و OpenAI نتونست موقعیت‌ رهبری خودش رو در این حوزه نگه داره.

تمرکز مجدد: OpenAI ممکنه منابع رو از ویدیو به سمت مدل‌های reasoning و AGI هدایت کرده باشه.

Sora در مقابل رقبا (در اوج خودش)

وقتی Sora در دسترس بود، مقایسه‌هایی که از آن می‌شد:

ویژگی	Sora	Runway Gen-4	Kling
کیفیت تصویر	عالی	خوب	خوب
ثبات شخصیت	خوب	متوسط	خوب
کنترل دوربین	محدود	قوی	متوسط
قیمت	بالا	متوسط	پایین
دسترسی	محدود/قطع	در دسترس	در دسترس

دسترسی از ایران

از همان ابتدا Sora برای ایران در دسترس نبود، هم به دلیل تحریم‌های OpenAI علیه ایران، و هم به دلیل محدودیت‌های جغرافیایی که خودش اعمال کرد. حتی در دوره‌ای که مشترکین Plus دسترسی داشتن، برای کاربران ایرانی عملاً غیرقابل استفاده بود.

برای ساخت ویدیو با AI، کاربران ایرانی معمولاً به ابزارهای جایگزین مثل Runway، Kling یا Pika رو می‌آرن که البته اونا هم مستقیم در دسترس نیستن ولی با VPN عملاً قابل استفاده‌ترن.

فناوری زیر Sora

از منظر فنی، Sora با رویکرد «spacetime patches» کار می‌کنه، ویدیو رو به پچ‌های کوچیک زمانی-مکانی تجزیه می‌کنه و روی این پچ‌ها attention اعمال می‌کنه. این رویکرد برخلاف مدل‌های قبلی که فریم به فریم کار می‌کردن، درک بهتری از حرکت پیوسته می‌ده.

مقالهٔ فنی OpenAI نشون داد که Sora اصلاً «مدل دنیا» (world model) نیست، نمایش داخلی‌ای از فیزیک یا هندسه نداره، بلکه الگوهای بصری رو از روی داده‌های ویدیویی یاد گرفته. به همین دلیل گاهی اشتباهات فیزیکی می‌کنه که برای مغز انسانی آشکاره.

جمع‌بندی: Sora از آینده‌نگری تا واقعیت

Sora یکی از تأثیرگذارترین دموهای AI در تاریخ بود، نشون داد که تولید ویدیوی واقعی‌نما از متن ممکنه. ولی مسیر تجاری‌سازیش سخت‌تر از بقیهٔ محصولات OpenAI بود و فعلاً در یه بلاتکلیفی استراتژیه.

اگه دنبال ابزارهای فعلاً در دسترس برای ویدیوی AI هستی، Runway و Kling گزینه‌های پایدارتریه.

همچنین بخوان

#چت جی پی تی

ادامهٔ مسیر

همهٔ مقاله‌ها ←

چت جی پی تی

چت جی پی تی (ChatGPT): راهنمای کامل فارسی ۱۴۰۵؛ همه چیز دربارهٔ نسخه‌ها، قیمت و جایگزین ایرانی

چت جی پی تی چیست، نسخه‌های GPT-4o و o1 و o3، اشتراک Plus، استفادهٔ فارسی، تحریم در ایران و چرا کاربر ایرانی به یک جایگزین با شناخت پیوسته نیاز دارد.

چت جی پی تی

آیراچت در برابر چت جی پی تی؛ کدام برای کاربر ایرانی بهتر است؟

مقایسهٔ کامل آیراچت و ChatGPT از زاویهٔ کاربر فارسی‌زبان: دسترسی، قیمت، فارسی محاوره، حافظه و امنیت حساب.

چت جی پی تی

چرا چت جی پی تی کار نمی‌کنه؟ راهنمای کامل قطعی و فیلتر هوش مصنوعی در ایران ۱۴۰۵

چرا چت جی پی تی، کلاد و جمنای در ایران باز نمی‌شوند؟ تفاوت تحریم، فیلتر و قطعی اینترنت، و یک هوش مصنوعی بومی که بدون فیلترشکن و با پرداخت تومانی همیشه کار می‌کند.

چت جی پی تی

چت جی پی تی چیست؟ راهنمای کامل ChatGPT

چت جی پی تی چیست؟ راهنمای کامل ChatGPT، راهنمای فارسی از مجموعهٔ «چت جی پی تی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

Sora چیست؟

Sora 2 و تکامل مدل

تغییر بزرگ: قطع دسترسی مصرف‌کننده

چرا OpenAI این مسیر رو رفت؟

Sora در مقابل رقبا (در اوج خودش)

دسترسی از ایران

فناوری زیر Sora

جمع‌بندی: Sora از آینده‌نگری تا واقعیت

همچنین بخوان

ادامهٔ مسیر

چت جی پی تی (ChatGPT): راهنمای کامل فارسی ۱۴۰۵؛ همه چیز دربارهٔ نسخه‌ها، قیمت و جایگزین ایرانی

آیراچت در برابر چت جی پی تی؛ کدام برای کاربر ایرانی بهتر است؟

چرا چت جی پی تی کار نمی‌کنه؟ راهنمای کامل قطعی و فیلتر هوش مصنوعی در ایران ۱۴۰۵

چت جی پی تی چیست؟ راهنمای کامل ChatGPT

بیشتر در «چت جی پی تی»