جمنای

Veo — تولید ویدیو گوگل

Veo — تولید ویدیو گوگل — راهنمای فارسی از مجموعهٔ «جمنای» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ Veo — تولید ویدیو گوگل

گوگل در اواخر ۲۰۲۴ مدل تولید ویدیوی Veo 2 رو معرفی کرد و ادعا کرد که در شبیه‌سازی فیزیک و حرکت دوربین از Sora جلوئه. این مقاله توضیح می‌ده Veo دقیقاً چیه، چه می‌تونه بکنه، چه نمی‌تونه، و کاربر ایرانی چطور ممکنه باهاش کار کنه.

Veo چیه؟

Veo یه مدل text-to-video از گوگل دیپ‌مایند است. نسخهٔ اول رو گوگل در Google I/O 2024 نشون داد؛ نسخهٔ دوم (Veo 2) در دسامبر ۲۰۲۴ به‌طور محدود در دسترس قرار گرفت و از اوایل ۲۰۲۵ از طریق VideoFX در Google Labs و بعداً در Gemini Advanced روی‌آمد.

ورودی Veo می‌تونه:

  • یه پرامپت متنی باشه («یه مرد قدیمی در کافهٔ پاریسی، نور صبحگاهی، سینماتیک»)
  • یه تصویر باشه که ازش ویدیو بسازه (image-to-video)
  • ترکیبی از هر دو

خروجی: ویدیوهایی با کیفیت تا ۱۰۸۰p، معمولاً ۵ تا ۸ ثانیه، با کنترل نسبتاً خوب روی حرکت دوربین.

چه چیزی Veo رو متمایز می‌کنه؟

شبیه‌سازی فیزیک: گوگل ادعا کرده Veo 2 آموزشی دیده که قوانین فیزیک واقعی رو — سقوط اشیاء، انعکاس نور، جریان آب — بهتر از رقبا شبیه‌سازی کنه. در نمونه‌های منتشرشده، این ادعا تا حد قابل‌توجهی درسته؛ خصوصاً در صحنه‌هایی با چندین موجودیت متحرک.

کنترل دوربین: می‌تونی دستور بدی «تیلت بالا»، «زوم آهسته»، «دوربین دست» — و Veo این‌ها رو نسبتاً درست اجرا می‌کنه. این سطح از کنترل در Runway یا Kling هم هست، ولی Veo خروجی‌های طبیعی‌تری داره.

انسجام بصری: افراد، اشیاء، و صحنه‌ها در طول کلیپ کمتر دچار «سوختن» (artifact) می‌شن نسبت به نسخه‌های اولیهٔ Sora.

محدودیت‌های واقعی

مدت زمان: خروجی‌های Veo 2 عمدتاً زیر ۱۰ ثانیه‌ان. برای ساخت ویدیوی بلند باید کلیپ‌ها رو به هم وصل کنی.

دسترسی: تا اواسط ۲۰۲۵، Veo از طریق Gemini Ultra (Google One AI Premium) در برخی کشورها در دسترسه. برای ایرانیان مشکل دو لایه داره — اول محدودیت‌های تحریمی گوگل، دوم اینکه Gemini Advanced خودش هم در ایران بلاک است. استفاده نیاز به VPN و روش‌های دور زدن تحریم داره.

هزینه: اگه به صورت API استفاده بشه، هزینه‌اش بالاست — در حد چند دسیمت دلار به ازای هر ثانیهٔ ویدیو. برای استفادهٔ شخصی، پلن Gemini Ultra ماهانه ۱۹.۹۹ دلار داره که Veo رو هم شامل می‌شه.

کنترل محدود روی چهره: مثل اکثر مدل‌های text-to-video، Veo در ساختن چهرهٔ ثابت یا تطابق با یه چهرهٔ خاص ضعیفه. برای این کار باید از ابزارهای lip-sync جداگانه استفاده کنی.

پرامپت فارسی: Veo برای پرامپت فارسی آموزش ندیده. بهتره پرامپت‌ها رو به انگلیسی بنویسی.

Veo در مقابل رقبا

ابزارشبیه‌سازی فیزیکمدت ویدیوکنترل دوربیندسترسی آزاد
Veo 2عالی۵-۸ ثانیهخوبمحدود
Sora (OpenAI)خوبتا ۶۰ ثانیهمتوسطChatGPT Plus
Runway Gen-3متوسط۵-۱۰ ثانیهخوببله
Klingمتوسطتا ۳۰ ثانیهمتوسطبله
Hailuoخوب۵-۶ ثانیهمحدودبله

برای ایرانیان، Runway و Kling دسترسی آزادتری دارن و می‌شه با VPN ازشون استفاده کرد.

چطور می‌شه از Veo استفاده کرد؟

سه مسیر اصلی:

۱. Gemini Advanced: اگه اشتراک Google One AI Premium داری، از طریق gemini.google.com می‌تونی درخواست ویدیو بدی. فعلاً در بعضی منطقه‌ها در دسترسه.

۲. VideoFX در Google Labs: labs.google/videofx — یه رابط تجربی‌تر که نیاز به waitlist داره.

۳. Vertex AI API: برای توسعه‌دهنده‌ها، Veo از طریق Google Cloud Vertex AI در دسترسه. نیاز به اکانت Cloud و هزینهٔ مصرف داره.

نمونه پرامپت‌های خوب

A slow-motion close-up of coffee being poured into a white ceramic cup,
steam rising, warm morning light from left, cinematic depth of field
An elderly fisherman sitting on a weathered dock at golden hour,
gentle waves lapping, handheld camera, documentary style

ویژگی‌هایی که Veo خوب بهشون واکنش می‌ده: نور مشخص، سبک دوربین، جزئیات محیطی، و پرامپت‌هایی که فیزیک طبیعی رو توصیف می‌کنن.

کجا Veo واقعاً کمک می‌کنه؟

  • پروتوتایپ ویدیو: قبل از تولید واقعی، ایده رو تصویری کن
  • b-roll: تولید تصاویر پس‌زمینه برای ویدیوهای اصلی
  • استوری‌بورد متحرک: برای کارگردان‌ها و طراحان تبلیغات
  • محتوای شبکهٔ اجتماعی کوتاه: کلیپ‌های ۵-۸ ثانیه‌ای بصری برای پست‌های اینستاگرام

برای ویدیوهای بلند، روایت پیچیده، یا محتوای نیازمند چهره‌های واقعی، Veo هنوز جایگزین خوبی نیست.


همچنین بخوان

#جمنای

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «جمنای»