Welches Videomodell ist am realistischsten?

Veo 3 führt bei fotorealistischer Bewegung, Physik und integriertem Audio. Runway Gen-3 Alpha und Kling 1.6 Pro folgen dicht bei der visuellen Qualität, liefern aber stumm. Für künstlerischen und stilisierten Output schlagen Pika und Dream Machine die Flagships oft zu einem Bruchteil der Kosten.

Wie lang darf ein generierter Clip sein?

Die meisten kommerziellen Modelle limitieren auf 5 Sekunden pro Aufruf. Manche (Kling 1.6, Pika 2) erlauben eine Verlängerung auf 10 Sekunden gegen Aufpreis. Über 10 Sekunden hinaus solltest du eine Sequenz von Shots generieren und sie zusammenschneiden — heute überlagert Qualitäts-Drift jede einzelne Aufruf-Dauer.

Wird pro Sekunde oder pro Aufruf abgerechnet?

Pro Sekunde Output. Ein Flagship-Clip von 5 Sekunden liegt je nach Modell und Auflösung typischerweise bei 0,20–1,00 €. Sound-on-Stufen und Auflösungen ab 1080p kosten mehr. Open-Weights-Modelle auf geteilter Infrastruktur können 10× günstiger sein.

Kann ich Video aus einem Startbild generieren?

Ja — Image-to-Video ist heute der zuverlässigste Workflow. Liefere ein Standbild plus einen Bewegungs-Prompt, und du bekommst deutlich stabileren Output als aus reinem Text, besonders bei Charakter-Animationen und Produktshots. Die meisten Flagships unterstützen beide Modi.

Veo 3 liefert integriert synchronisiertes Audio aus (Dialog, Soundeffekte, Musik). Die meisten anderen kommerziellen Modelle geben stummes Video aus — du generierst Audio separat mit einem TTS- oder Musikmodell und legst es in der Postproduktion drauf. Schau in die Modellkarte für Audio-Support, bevor du integrierst.

Welche Auflösungen werden unterstützt?

Standard-Stufen liefern 720p. Pro-Stufen ergänzen 1080p zu etwa doppelten Kosten. 4K-Output ist 2026 selten und teuer; für Finale in höherer Auflösung skaliere in der Postproduktion mit einem dedizierten Video-Upscaler hoch.

Wie schnell ist Videogenerierung?

Die Wandlaufzeit hängt vom Modell ab: 30 Sekunden bis 2 Minuten für einen 5-Sekunden-Clip auf Flagship-Infrastruktur, 5–15 Minuten auf geteilten Open-Weights-GPUs. Plane mit asynchroner UX — zeige einen Fortschrittsbalken und lass die Nutzer zurückkommen.

Sind kommerzielle Nutzungsrechte enthalten?

Kommerzielle Stufen (Veo, Runway, Kling Pro, Pika) gewähren eine unbefristete lizenzfreie kommerzielle Nutzung. Manche Open-Weights-Research-Modelle beschränken auf nicht-kommerziellen Gebrauch — die Lizenz steht auf jeder Modellseite. Lies sie, bevor du den Output in eine bezahlte Kampagne packst.

Video Generation

Generate and edit videos with AI-powered models

Videogenerierungs-Modelle für Marketing, Motion und Prototyping

Videomodelle verwandeln einen Prompt — oder ein Standbild oder einen kurzen Referenzclip — in ein bewegtes Bild. Die Kategorie ist die jüngste und volatilste im Katalog: Jedes Quartal bringt ein neues Flagship, das die Qualitätslatte neu setzt. Du greifst zu einem, wenn du Bewegtbild-Inhalte schneller brauchst, als ein menschlicher Editor sie produzieren kann.

All Text & Chat Image Video Audio Text-to-Speech Speech-to-Text Embeddings Code Multimodal Robotics / VLA

59 models available

Google Veo 2

VideoGoogle DeepMind

Popular

Google's state-of-the-art video generation model. Simulates real-world physics with various visual styles.

€5.00120.0s

high-qualitypopular

Google Veo 3

VideoGoogle DeepMind

Popular

Google's Veo 3. High-fidelity text-to-video with native audio generation, up to 8s clips.

€0.7592.0s

googleveotext-to-video

Google Veo 3 (Replicate)

VideoGoogle DeepMind

Popular

Google's Veo 3 served via Replicate. Text-to-video with native synchronized audio generation. High-fidelity motion and scene coherence in short clips.

€8.00

replicategoogleveo

Google Veo 3.1

VideoGoogle DeepMind

NewPopular

Latest Veo with image-to-video and context-aware audio

€6.0092.0s

popularaudioi2v

HunyuanVideo

VideoTencent

Popular

Tencent's HunyuanVideo, a 13B open-weights text-to-video diffusion transformer. Produces high-motion, photorealistic clips with smooth temporal consistency and was one of the first open models to rival closed systems on motion quality.

Video Generation

Videogenerierungs-Modelle für Marketing, Motion und Prototyping

Google Veo 2

Google Veo 3

Google Veo 3 (Replicate)

Google Veo 3.1

HunyuanVideo

Kling v2.1

Kling v2.1 Master

Kling v3

Kling v3 Omni

MiniMax Hailuo 02

OpenAI Sora 2

Runway Gen 4.5

Runway Gen-4 Turbo

Sora

AnimateDiff

AnimateDiff Lightning

ByteDance Seedance 1 Pro

Champ Human Animation

CogVideoX-5B

CogVideoX-5B (open)

DynamiCrafter

EchoMimic

FILM Frame Interpolation

Google Veo 3 Fast

Google Veo 3.1 Fast

Grok Imagine Video

Hailuo / MiniMax Video-01

Hailuo 2.3

HunyuanVideo

Kling 1.6 Pro

Kling v1.6 Pro

LivePortrait

LTX-Video (Lightricks)

Luma Dream Machine v1.6

Luma Ray Flash 2

Luma Ray-2 720p

MagicAnimate

Minimax Video

Mochi 1

Mochi 1

MuseTalk

Pika 2.0 (Official)

PixVerse v5.6

RIFE Frame Interpolation

Runway Gen-3 Alpha Turbo

SadTalker

Seedance Lite

Seedance Pro

StreamingT2V

SwinIR Video

ToonCrafter

V-Express

VideoCrafter

Wan 2.1 (Alibaba)

Wan 2.1 I2V 720p

Wan 2.1 T2V 720p (Accelerated)

Wan 2.2 Image-to-Video

Wan 2.2 Text-to-Video

Wav2Lip

Top video generation picks

Popular use cases

Related comparisons

Kling 1.6 Pro vs Pika 2

Veo 3 vs Kling 1.6 Pro

Dream Machine 1.6 vs Mochi 1

Frequently asked questions

Welches Videomodell ist am realistischsten?

Wie lang darf ein generierter Clip sein?

Wird pro Sekunde oder pro Aufruf abgerechnet?

Kann ich Video aus einem Startbild generieren?

Ist Audio enthalten?

Welche Auflösungen werden unterstützt?

Wie schnell ist Videogenerierung?

Sind kommerzielle Nutzungsrechte enthalten?

Start Building with AI