Robotics / VLA
Vision-Language-Action models for robotics and embodied AI
Vision-Language-Action-Modelle für Robotik und Embodied AI
Vision-Language-Action-Modelle (VLA) verbinden Wahrnehmung, Sprache und Motorsteuerung. Ein VLA nimmt Kameraframes plus eine natürlichsprachliche Anweisung ('hebe den roten Becher auf') und gibt Low-Level-Roboteraktionen aus — Gelenkwinkel, Greiferbefehle, Endeffektor-Posen. Die meisten Modelle sind Forschungsartefakte aus Laboren wie Physical Intelligence, Google DeepMind, Stanford und Berkeley.
12 models available
Gemini Robotics (2025)
Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Gemini Robotics-ER
Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.
Google RT-2-X
Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.
LeRobot SmolVLA
HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.
NVIDIA Cosmos-Predict-1
NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.
Octo Base
Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.
Octo Small
Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.
OpenVLA-7B
Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.
Physical Intelligence Pi-0-FAST
Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.
Physical Intelligence π-0
Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.
Physical Intelligence π-0.5
Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.
RDT-1B
Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.
Top robotics / vla picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreDie Preisgestaltung in dieser Kategorie ist noch nicht standardisiert. Die meisten Modelle auf dieser Seite laufen auf dedizierter GPU-Infrastruktur — Vast.ai, Replicate, selbst gehostet — und du zahlst pro Sekunde Inferenz-Rechenzeit statt pro Aufruf oder pro Token. Plane mit 0,001–0,01 € pro Inferenz-Schritt (ein Kameraframe plus eine Anweisung) auf H100-Klasse-Hardware. Eine kontinuierliche Policy, die mit 10 Hz läuft, kostet rund 0,36–3,60 € pro Stunde Roboter-Betrieb, vor Energie- und Aufsichtskosten.
Das Trade-off-Dreieck heisst Generalisierung, Latenz und physischer Umfang. Grössere VLAs (RT-2-X, OpenVLA-7B) generalisieren auf neue Objekte und Anweisungen, inferieren aber mit 1–3 Hz, was für Closed-Loop-Dexterous-Control zu langsam ist. Kleinere destillierte Modelle (Octo, π-0-fast, RDT-1B) erreichen 30–50 Hz, generalisieren aber nur innerhalb ihrer Trainingsverteilung. Für Tisch-Manipulation in einer kontrollierten Zelle ist meist das kleine schnelle Modell korrekt. Für Forschung, die Sprach- und visuelle Generalisierung braucht, ist es das grössere.
Achte auf den Sim-to-Real-Gap: Die meisten VLA-Trainingsdaten werden in der Simulation oder auf bestimmten Roboter-Embodiments erhoben. Deployment auf einem anderen Arm, Greifer oder einer anderen Kamera-Geometrie braucht typisch Fine-Tuning auf einigen Hundert bis einigen Tausend neuen Demonstrationen. Achte auch auf Sicherheit — diese Modelle geben gelegentlich unsichere Gelenktrajektorien aus; lass immer einen Low-Level-Safety-Filter (Gelenklimits, Kraftlimits, Arbeitsraumgrenzen) zwischen Policy und Hardware laufen.
Die Top-Picks oben decken das generalisierbarste Forschungs-Flagship, die günstigste Option für geteilte GPUs, das grösste Open-Weights-Modell und die schnellste Echtzeit-Control-Policy ab. Kommerzielle Managed-API-Angebote werden ergänzt, sobald Anbieter sie ausspielen.
Popular use cases
Common patterns built with robotics / vla on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.