Robotics / VLA

Vision-Language-Action models for robotics and embodied AI

Vision-language-action-modellen voor robotica en embodied AI

Vision-language-action (VLA) modellen overbruggen perceptie, taal en motorische besturing. Een VLA neemt camerabeelden plus een natuurlijke-taalinstructie ('pak de rode mok') en levert robotacties op laag niveau — gewrichtshoeken, gripper-opdrachten, end-effector-posities. De meeste zijn onderzoeksartefacten van labs als Physical Intelligence, Google DeepMind, Stanford en Berkeley.

12 models available

Gemini Robotics (2025)

RoboticsGoogle DeepMind

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Free
googledeepmindgemini

Gemini Robotics-ER

RoboticsGoogle DeepMind

Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.

Free
googledeepmindgemini

Google RT-2-X

RoboticsGoogle DeepMind

Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.

Free
googlevlarobotics

LeRobot SmolVLA

RoboticsCustom

HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.

Free
huggingfacelerobotvla

NVIDIA Cosmos-Predict-1

RoboticsCustom

NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.

Free
nvidiacosmosvla

Octo Base

RoboticsUC Berkeley

Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.

Free
berkeleystanfordvla

Octo Small

RoboticsUC Berkeley

Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.

Free
berkeleyvlarobotics

OpenVLA-7B

RoboticsOpenVLA

Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.

Free
stanfordberkeleyvla

Physical Intelligence Pi-0-FAST

RoboticsPhysical Intelligence

Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0

RoboticsPhysical Intelligence

Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0.5

RoboticsPhysical Intelligence

Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.

Free
physical-intelligencevlarobotics

RDT-1B

RoboticsCustom

Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.

Free
tsinghuavlarobotics

Top robotics / vla picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Beste algemeen
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Goedkoopst
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Grootste open weights
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Snelste
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more

Pricing in deze categorie is nog niet gestandaardiseerd. De meeste modellen op deze pagina draaien op dedicated GPU-infrastructuur — Vast.ai, Replicate, self-hosted — en je betaalt per seconde inference-compute in plaats van per call of per token. Reken op €0,001-€0,01 per inference-stap (één cameraframe plus één instructie) op H100-klasse hardware. Een continue policy die op 10 Hz draait kost ruwweg €0,36-€3,60 per uur robotoperatie, voor energie- en supervisiekosten.

De afwegingsdriehoek is generalisatie, latency en fysieke reikwijdte. Grotere VLA's (RT-2-X, OpenVLA-7B) generaliseren naar nieuwe objecten en instructies maar inferereren op 1-3 Hz, te traag voor gesloten-lus dexterieuze besturing. Kleinere gedistilleerde modellen (Octo, π-0-fast, RDT-1B) halen 30-50 Hz maar generaliseren alleen binnen hun trainingsdistributie. Voor tafelmanipulatie in een gecontroleerde cel is het kleine snelle model meestal de juiste keuze. Voor onderzoek dat taal- en visuele generalisatie nodig heeft, is het grotere model dat.

Pas op met de sim-to-real-gap: de meeste VLA-trainingsdata wordt in simulatie verzameld of op specifieke robot-embodiments. Uitrollen op een andere arm, gripper of camerageometrie vereist meestal fine-tuning op enkele honderden tot enkele duizenden nieuwe demonstraties. Pas ook op met veiligheid — deze modellen produceren af en toe onveilige gewrichtstrajecten; laat altijd een low-level safety filter (gewrichtsgrenzen, krachtgrenzen, workspace-grenzen) tussen policy en hardware draaien.

De topkeuzes hierboven dekken het meest generaliseerbare research-flagship, de goedkoopste run-op-gedeelde-GPU-optie, het grootste open-weights-model en de snelste realtime besturingspolicy. Commerciële managed-API-aanbiedingen worden toegevoegd zodra providers ze lanceren.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.