Įvadas: Kas yra Google Veo 2?
Google Veo 2, sukurtas Google DeepMind ir Vertex AI komandų, yra milžiniškas šuolis generatyvinio vaizdo technologijų srityje. Kaip originalaus Veo modelio įpėdinis, Google Veo 2 yra sukurtas imituoti realaus pasaulio fiziką su precedento neturinčiu tikslumu, kartu siūlant kūrėjams platų vizualinių stilių spektrą. Dabar prieinamas per google-veo-2 modelį Replicate platformoje, šis įrankis leidžia programuotojams integruoti aukštos kokybės vaizdo įrašų generavimą tiesiai į savo programėles, nevaldant sudėtingų GPU klasterių. Nesvarbu, ar generuojate kinematografišką peizažą, ar sudėtingą veikėjų sąveiką, Veo 2 naudoja pažangius difuzijos transformatorius (diffusion transformers), kad išlaikytų laiko nuoseklumą klipuose, kurie gali trukti iki 60 sekundžių aukštos raiškos medžiagos.
Sponsored
Generuokite vaizdo įrašus su Google Veo 2 per Railwail
Išbandykite naujos kartos AI vaizdo įrašus. Įdiekite Google Veo 2 akimirksniu mūsų našioje infrastruktūroje.
Pagrindinės funkcijos ir techninės galimybės
Aukštos raiškos 1080p išvestis
Vienas reikšmingiausių Veo 2 atnaujinimų yra vietinis 1080p raiškos palaikymas esant 30 kadrų per sekundę greičiui. Skirtingai nei ankstesni modeliai, kuriems reikėjo didelio mastelio didinimo (upscaling) – kas dažnai sukeldavo vizualinius artefaktus – Veo 2 generuoja didelio tankio pikselių duomenis nuo pat pirmo kadro. Tai paverčia jį tinkamu įrankiu profesionaliems kino kūrėjams ir rinkodaros agentūroms, kurioms reikia transliacijos kokybės turinio. Naudodamas latent diffusion architecture, modelis supranta apšvietimo, tekstūros ir judėjimo niuansus, užtikrindamas, kad „saulėlydis virš Viduržemio jūros“ atrodytų taip pat fotorealistiškai, kaip ir „cyberpunk gatvė Tokijuje“.
- Tekstas į vaizdo įrašą: paverskite išsamius aprašomuosius nurodymus kinematografiškais klipais.
- Vaizdas į vaizdo įrašą: naudokite pavyzdinį vaizdą vizualiniam stiliui ir pradiniam kadrui apibrėžti.
- Kinematografinis valdymas: reguliuokite kameros judesius, tokius kaip panoraminis sukimas, pakreipimas ir priartinimas, naudodami užklausų modifikatorius.
- Laiko nuoseklumas: pažangi fizikos simuliacija, apsauganti nuo objektų „morfingo“ (iškraipymo).
- Išplėstas kontekstas: palaikomos ilgesnės sekos, lyginant su tradiciniais 4 sekundžių klipais.
Duomenimis pagrįstas našumas: testai prieš konkurentus
Konkurencingoje AI vaizdo įrašų aplinkoje duomenys yra vienintelis objektyvus sėkmės matas. Google Veo 2 buvo išbandytas naudojant Frechet Video Distance (FVD) – metriką, kuri apskaičiuoja statistinį atstumą tarp tikrų ir sugeneruotų vaizdo įrašų pasiskirstymo. Naudojant Kinetics-600 duomenų rinkinį, Veo 2 pasiekė maždaug 150 FVD balą, o tai yra 16,7 % geresnis rezultatas nei ankstesnių versijų. Tai leidžia jam tiesiogiai konkuruoti su OpenAI Sora, kuri pranešė apie panašius rezultatus kontroliuojamose aplinkose. Tačiau Veo 2 išsiskiria savo išvedimo greičiu (inference speed), dažnai sugeneruodamas 10 sekundžių peržiūrą per mažiau nei 45 sekundes optimizuotoje TPU v4 techninėje įrangoje.
AI vaizdo modelių palyginimas (2024)
| Metrika | Google Veo 2 | OpenAI Sora | Runway Gen-3 | |
|---|---|---|---|---|
| FVD balas (mažesnis yra geriau) | 150 | 180 | 195 | |
| Maksimali raiška | 1080p | 1080p | 720p/1080p | 4K (padidinta) |
| Išvedimo greitis (10s klipas) | ~45s | ~120s | ~60s | |
| Fizikos nuoseklumas | Aukštas | Labai aukštas | Vidutinis |
Kainodaros supratimas Replicate platformoje
Prieinamumas yra pagrindinis Replicate ekosistemos principas. Google Veo 2 kainodara sudaryta mokėjimo už milisekundę principu, užtikrinant, kad mokėtumėte tik už faktiškai sunaudotus skaičiavimo resursus. Paprastai Veo 2 paleidimas aukščiausios klasės GPU instancijoje (pavyzdžiui, A100 arba H100) kainuoja nuo 0,0023 USD iki 0,0032 USD už skaičiavimo laiko sekundę. Standartiniam 5 sekundžių vaizdo klipui tai sudaro maždaug nuo 0,25 USD iki 0,60 USD už generavimą, priklausomai nuo užklausos sudėtingumo ir reikiamų atrankos žingsnių (sampling steps). Išsamesnę informaciją rasite mūsų oficialiame kainų puslapyje.
Numatomos generavimo išlaidos
| Klipo trukmė | Numatomas skaičiavimo laikas | Apytikslė kaina (USD) |
|---|---|---|
| 5 sekundės (peržiūra) | 30 sekundžių | $0.15 - $0.30 |
| 10 sekundžių (HD) | 60 sekundžių | $0.40 - $0.75 |
| 30 sekundžių (kinematografinis) | 180 sekundžių | $1.50 - $2.50 |
Įgyvendinimas: Replicate API naudojimas
Greitojo pradžios gidas
Veo 2 integravimas į jūsų darbo eigą yra paprastas naudojant Replicate Python klientą. Pirmiausia turite užsiregistruoti paskyrą, kad gautumėte API raktą. Autentifikavęsi galite paleisti generavimą paprasta replicate.run() komanda. Modelis priima tokius parametrus kaip prompt, negative_prompt, num_frames ir fps. Programuotojams, ieškantiems gilesnės integracijos, mūsų API dokumentacija pateikia išsamius Node.js, Go ir HTTP užklausų pavyzdžius.
Realūs panaudojimo atvejai
Nors technologija yra įspūdinga, jos vertė slypi pritaikyme. Veo 2 jau naudojamas keliose didelio poveikio pramonės šakose. Rinkodaroje prekės ženklai jį naudoja kurdami „begalines“ socialinių tinklų reklamų variacijas, išbandydami skirtingus vizualinius stilius skirtingoms demografinėms grupėms. Švietime jis leidžia kurti istorinius atkūrimus ar mokslines vizualizacijas, kurias nufilmuoti būtų per brangu. Tačiau vartotojai turėtų nepamiršti skaičiavimo sąnaudų (computational overhead) ir poreikio tiksliai formuluoti užklausas (prompt engineering), norint pasiekti konkrečių rezultatų.
- Greitas scenarijaus vizualizavimas (storyboarding): kino kūrėjai gali vizualizuoti scenas per kelias sekundes, o ne dienas.
- Dinaminiai svetainių fonai: programuotojai gali generuoti unikalius, nesikartojančius vaizdo fonus svetainėms.
- Socialinių tinklų turinys: kūrėjai gali kurti aukštos kokybės papildomą medžiagą (b-roll) be brangios kamerų įrangos.
- Žaidimų kūrimas: aplinkos tekstūrų ir kinematografiškų intarpų (cutscenes) generavimas.
Apribojimai ir etiniai aspektai
Fizikos atotrūkis
Nepaisant pažangos, Google Veo 2 nėra tobulas. Jis vis dar kartais susiduria su sunkumais esant sudėtingoms fizinėms sąveikoms, pavyzdžiui, rankai pakeliant stiklinę su skysčiu ar rišant sudėtingus mazgus. Šios „haliucinacijos“ atsiranda todėl, kad modelis prognozuoja pikselius remdamasis statistiniais dėsningumais, o ne tikru Niutono fizikos supratimu. Be to, Google įdiegė griežtus saugos filtrus, kad užkirstų kelią „deepfake“ vaizdo įrašų, autorių teisių saugomų veikėjų ar žalingo turinio generavimui. Kiekvienas per Veo 2 sugeneruotas vaizdo įrašas turi SynthID vandenženklį – skaitmeninį identifikatorių, kuris išlieka net po redagavimo, užtikrinant skaidrumą.
Sponsored
Išplėskite savo kūrybinę studiją
Prisijunkite prie daugiau nei 50 000 programuotojų, naudojančių Railwail savo AI programėlėms. Aukštas pasiekiamumas, maža delsa ir geriausi modeliai.
AI vaizdo įrašų ateitis: kas toliau?
Google Veo 2 trajektorija rodo ateitį, kurioje vaizdo įrašai bus tokie pat lankstūs kaip tekstas. Tikimės, kad būsimos versijos apims vietinį garso generavimą – automatiškai sinchronizuojant garso efektus su vizualiniu veiksmu. Be to, judėjimas link realaus laiko išvedimo tikriausiai įgalins interaktyvias AI vaizdo patirtis, pavyzdžiui, personalizuotus filmus ar prisitaikančias vaizdo žaidimų aplinkas. Kadangi generavimo kaina toliau mažėja, barjeras tarp kūrybinės idėjos ir užbaigtos kinematografinės produkcijos praktiškai išnyks.