تصویر و ویدیو

Veo گوگل — راهنمای ویدیو

Veo گوگل — راهنمای ویدیو — راهنمای فارسی از مجموعهٔ «تصویر و ویدیو» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ Veo گوگل — راهنمای ویدیو

گوگل توی مسابقهٔ ویدیوی هوش مصنوعی دیر وارد شد، ولی وقتی Veo 2 رو در اواخر ۲۰۲۴ معرفی کرد، خیلی‌ها رو غافلگیر کرد. ادعا این بود که واقع‌گرایانه‌ترین شبیه‌سازی فیزیک رو داره. بعد از آزمایش واقعی، باید بگم که این ادعا تا حدی درسته — و در یه سری چیزها خیلی بهتر از Sora عمل می‌کنه.

Veo چیه و چرا متفاوته

Veo مدل text-to-video و image-to-video گوگله. Veo 2 که نسخهٔ اصلی فعلیه، روی درک فیزیک تمرکز داشته — چطور اجسام می‌افتن، آب چطور حرکت می‌کنه، نور چطور در سطح‌ها منعکس می‌شه. این تمرکز در کلیپ‌های طبیعی و محیطی به‌وضوح دیده می‌شه.

زیرساخت آموزشی Veo از ویدیوهای یوتیوب — بزرگ‌ترین آرشیو ویدیویی دنیا — بهره برده. این یعنی مدل دیده که «حرکت واقعی» چطوره، نه فقط توصیف‌های متنی ازش.

قابلیت‌های واقعی Veo 2

طول ویدیو: تا ۸ ثانیه در دسترس عمومی. مدل‌های آزمایشگاهی تا ۶۰ ثانیه هم دارن.

رزولوشن: ۱۰۸۰p استاندارد، ۴K در نسخه‌های پیشرفته‌تر.

کنترل دوربین: یکی از قوی‌ترین بخش‌های Veo‌ه. می‌شه دقیقاً مشخص کرد دوربین از کجا به کجا حرکت می‌کنه — Dutch angle، orbit shot، crane shot — و مدل بهتر از اکثر رقبا پیروی می‌کنه.

شبیه‌سازی فیزیک: این جایی‌ه که Veo واقعاً می‌درخشه. پاشیدن آب، دود، آتش، پارچهٔ در حال حرکت — همه طبیعی‌تر از Sora به نظر می‌رسن. این تفاوت در کلیپ‌های طبیعی محور (مثلاً ویدیوهای تبلیغاتی محصول با اجزای دینامیک) خیلی محسوسه.

Image-to-video: تصویر می‌دی و Veo بهش حرکت اضافه می‌کنه. در حفظ جزئیات تصویر اصلی قوی عمل می‌کنه.

محدودیت‌ها: چهره‌ها هنوز در حرکت‌های پیچیده مشکل دارن. متن در ویدیو رندر نمی‌کنه. اگه ادم می‌خوای تولید کنی با حرکت‌های خاص، Sora یا Runway کنترل بیشتری می‌دن.

دسترسی — کجا پیداش می‌کنی

Veo 2 از چند مسیر در دسترسه:

Google AI Ultra (Gemini Advanced): گران‌ترین پلن گوگل (ماهانه ۲۴۹.۹۹ دلار) شامل Veo 2 می‌شه.

VideoFX در AI Studio: محدود به کاربران در مناطق خاص — ایران جزوشون نیست.

Gemini با Workspace Enterprise: در برخی پلن‌های سازمانی.

مسیر واقعی برای کاربر ایرانی: با VPN و یه حساب Google در منطقهٔ مجاز + پلن مناسب. دشوارتر از Sora‌ه، چون پرداخت گوگل محدودیت‌های جدی‌تری داره.

Veo 2 در مقابل Sora، Runway، و Kling

Veo 2SoraRunway Gen-3Kling
فیزیک محیطی★★★★★★★★★☆★★★☆☆★★★☆☆
کنترل دوربین★★★★★★★★★★★★★★☆★★★☆☆
حرکت انسانی★★★☆☆★★★★☆★★★★☆★★★★☆
حداکثر طول۸ ثانیه۱۲۰ ثانیه۱۸ ثانیه۳ دقیقه
دسترسی ایرانخیلی سختسختسختنسبتاً راحت

نتیجه عملی: اگه داری ویدیوی تبلیغاتی محصول با عناصر طبیعی (آب، دود، پارچه، نور) می‌سازی، Veo 2 بهترین خروجیه. اگه طول ویدیو مهمه، Kling خیلی بهتره. برای حرکت شخصیت انسانی، Runway قوی‌تره. Sora در ترکیب همه چیز متعادل‌تره.

پرامپت‌نویسی برای Veo

چون Veo در فیزیک قوی‌ه، پرامپت‌هایی که عناصر دینامیک محیطی رو توصیف می‌کنن بهترین نتیجه رو می‌دن. مثال:

ضعیف: «یه ساحل با امواج»

قوی: «نمای نزدیک از امواجی که با ضربهٔ ملایم به سنگ‌های تیره برخورد می‌کنن، قطره‌های آب پراکنده در هوا، نور غروب از سمت راست، دوربین ثابت روی سه‌پایه»

Veo با توصیف حرکت دقیق دوربین بهتر کار می‌کنه. اضافه کردن اصطلاحاتی مثل «slow motion ۱۲۰fps»، «anamorphic lens flares»، «shallow depth of field» هم تفاوت می‌سازه.

یه کمک از آیرا

گوگل داره Veo رو به Gemini وصل می‌کنه، ولی آیراچت فعلاً مستقیماً ویدیو از Veo تولید نمی‌کنه — این صادقانه‌ترین چیزیه که می‌شه گفت. ولی اگه می‌خوای پرامپت فنی و دقیق بنویسی، یا نمی‌دونی Veo مناسب پروژه‌ات هست یا Runway بهتره، آیرا می‌تونه کمک کنه آنالیز کنی. با شناخت پیوسته، پروژه‌ها و ترجیحاتت رو بین جلسه‌ها یادش می‌مونه.

همچنین بخوان


Veo 2 یه مدل قوی‌ه که هنوز در دسترسی گسترده محدودیت داره. وقتی باز بشه، احتمالاً اول‌انتخاب محتوای طبیعت و محصول می‌شه. تا اون موقع، برای اطلاعات بیشتر درباره ابزارهای ویدیویی که الان دسترسی دارن، آیراچت رو باز کن.

آیرا تو رو می‌شناسه؛ یادشم نمی‌ره.

#تصویر و ویدیو

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «تصویر و ویدیو»