Robotics / VLA
Vision-Language-Action models for robotics and embodied AI
Vision-language-action-modellen voor robotica en embodied AI
Vision-language-action (VLA) modellen overbruggen perceptie, taal en motorische besturing. Een VLA neemt camerabeelden plus een natuurlijke-taalinstructie ('pak de rode mok') en levert robotacties op laag niveau — gewrichtshoeken, gripper-opdrachten, end-effector-posities. De meeste zijn onderzoeksartefacten van labs als Physical Intelligence, Google DeepMind, Stanford en Berkeley.
12 models available
Gemini Robotics (2025)
Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Gemini Robotics-ER
Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.
Google RT-2-X
Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.
LeRobot SmolVLA
HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.
NVIDIA Cosmos-Predict-1
NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.
Octo Base
Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.
Octo Small
Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.
OpenVLA-7B
Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.
Physical Intelligence Pi-0-FAST
Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.
Physical Intelligence π-0
Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.
Physical Intelligence π-0.5
Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.
RDT-1B
Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.
Top robotics / vla picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn morePricing in deze categorie is nog niet gestandaardiseerd. De meeste modellen op deze pagina draaien op dedicated GPU-infrastructuur — Vast.ai, Replicate, self-hosted — en je betaalt per seconde inference-compute in plaats van per call of per token. Reken op €0,001-€0,01 per inference-stap (één cameraframe plus één instructie) op H100-klasse hardware. Een continue policy die op 10 Hz draait kost ruwweg €0,36-€3,60 per uur robotoperatie, voor energie- en supervisiekosten.
De afwegingsdriehoek is generalisatie, latency en fysieke reikwijdte. Grotere VLA's (RT-2-X, OpenVLA-7B) generaliseren naar nieuwe objecten en instructies maar inferereren op 1-3 Hz, te traag voor gesloten-lus dexterieuze besturing. Kleinere gedistilleerde modellen (Octo, π-0-fast, RDT-1B) halen 30-50 Hz maar generaliseren alleen binnen hun trainingsdistributie. Voor tafelmanipulatie in een gecontroleerde cel is het kleine snelle model meestal de juiste keuze. Voor onderzoek dat taal- en visuele generalisatie nodig heeft, is het grotere model dat.
Pas op met de sim-to-real-gap: de meeste VLA-trainingsdata wordt in simulatie verzameld of op specifieke robot-embodiments. Uitrollen op een andere arm, gripper of camerageometrie vereist meestal fine-tuning op enkele honderden tot enkele duizenden nieuwe demonstraties. Pas ook op met veiligheid — deze modellen produceren af en toe onveilige gewrichtstrajecten; laat altijd een low-level safety filter (gewrichtsgrenzen, krachtgrenzen, workspace-grenzen) tussen policy en hardware draaien.
De topkeuzes hierboven dekken het meest generaliseerbare research-flagship, de goedkoopste run-op-gedeelde-GPU-optie, het grootste open-weights-model en de snelste realtime besturingspolicy. Commerciële managed-API-aanbiedingen worden toegevoegd zodra providers ze lanceren.
Popular use cases
Common patterns built with robotics / vla on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.