Robotics / VLA

Vision-Language-Action models for robotics and embodied AI

Vision-Language-Action-Modelle für Robotik und Embodied AI

Vision-Language-Action-Modelle (VLA) verbinden Wahrnehmung, Sprache und Motorsteuerung. Ein VLA nimmt Kameraframes plus eine natürlichsprachliche Anweisung ('hebe den roten Becher auf') und gibt Low-Level-Roboteraktionen aus — Gelenkwinkel, Greiferbefehle, Endeffektor-Posen. Die meisten Modelle sind Forschungsartefakte aus Laboren wie Physical Intelligence, Google DeepMind, Stanford und Berkeley.

12 models available

Gemini Robotics (2025)

RoboticsGoogle DeepMind

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Free
googledeepmindgemini

Gemini Robotics-ER

RoboticsGoogle DeepMind

Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.

Free
googledeepmindgemini

Google RT-2-X

RoboticsGoogle DeepMind

Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.

Free
googlevlarobotics

LeRobot SmolVLA

RoboticsCustom

HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.

Free
huggingfacelerobotvla

NVIDIA Cosmos-Predict-1

RoboticsCustom

NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.

Free
nvidiacosmosvla

Octo Base

RoboticsUC Berkeley

Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.

Free
berkeleystanfordvla

Octo Small

RoboticsUC Berkeley

Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.

Free
berkeleyvlarobotics

OpenVLA-7B

RoboticsOpenVLA

Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.

Free
stanfordberkeleyvla

Physical Intelligence Pi-0-FAST

RoboticsPhysical Intelligence

Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0

RoboticsPhysical Intelligence

Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0.5

RoboticsPhysical Intelligence

Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.

Free
physical-intelligencevlarobotics

RDT-1B

RoboticsCustom

Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.

Free
tsinghuavlarobotics

Top robotics / vla picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Beste Wahl insgesamt
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Günstigstes
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Grösste Open Weights
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Schnellstes
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more

Die Preisgestaltung in dieser Kategorie ist noch nicht standardisiert. Die meisten Modelle auf dieser Seite laufen auf dedizierter GPU-Infrastruktur — Vast.ai, Replicate, selbst gehostet — und du zahlst pro Sekunde Inferenz-Rechenzeit statt pro Aufruf oder pro Token. Plane mit 0,001–0,01 € pro Inferenz-Schritt (ein Kameraframe plus eine Anweisung) auf H100-Klasse-Hardware. Eine kontinuierliche Policy, die mit 10 Hz läuft, kostet rund 0,36–3,60 € pro Stunde Roboter-Betrieb, vor Energie- und Aufsichtskosten.

Das Trade-off-Dreieck heisst Generalisierung, Latenz und physischer Umfang. Grössere VLAs (RT-2-X, OpenVLA-7B) generalisieren auf neue Objekte und Anweisungen, inferieren aber mit 1–3 Hz, was für Closed-Loop-Dexterous-Control zu langsam ist. Kleinere destillierte Modelle (Octo, π-0-fast, RDT-1B) erreichen 30–50 Hz, generalisieren aber nur innerhalb ihrer Trainingsverteilung. Für Tisch-Manipulation in einer kontrollierten Zelle ist meist das kleine schnelle Modell korrekt. Für Forschung, die Sprach- und visuelle Generalisierung braucht, ist es das grössere.

Achte auf den Sim-to-Real-Gap: Die meisten VLA-Trainingsdaten werden in der Simulation oder auf bestimmten Roboter-Embodiments erhoben. Deployment auf einem anderen Arm, Greifer oder einer anderen Kamera-Geometrie braucht typisch Fine-Tuning auf einigen Hundert bis einigen Tausend neuen Demonstrationen. Achte auch auf Sicherheit — diese Modelle geben gelegentlich unsichere Gelenktrajektorien aus; lass immer einen Low-Level-Safety-Filter (Gelenklimits, Kraftlimits, Arbeitsraumgrenzen) zwischen Policy und Hardware laufen.

Die Top-Picks oben decken das generalisierbarste Forschungs-Flagship, die günstigste Option für geteilte GPUs, das grösste Open-Weights-Modell und die schnellste Echtzeit-Control-Policy ab. Kommerzielle Managed-API-Angebote werden ergänzt, sobald Anbieter sie ausspielen.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.