Robotics / VLA
Vision-Language-Action models for robotics and embodied AI
Modelos visión-lenguaje-acción para robótica e IA encarnada
Los modelos visión-lenguaje-acción (VLA) tienden un puente entre percepción, lenguaje y control motor. Un VLA toma fotogramas de cámara más una instrucción en lenguaje natural («coge la taza roja») y emite acciones de bajo nivel del robot — ángulos articulares, comandos de pinza, poses del efector final. La mayoría son artefactos de investigación de laboratorios como Physical Intelligence, Google DeepMind, Stanford y Berkeley.
12 models available
Gemini Robotics (2025)
Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Gemini Robotics-ER
Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.
Google RT-2-X
Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.
LeRobot SmolVLA
HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.
NVIDIA Cosmos-Predict-1
NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.
Octo Base
Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.
Octo Small
Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.
OpenVLA-7B
Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.
Physical Intelligence Pi-0-FAST
Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.
Physical Intelligence π-0
Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.
Physical Intelligence π-0.5
Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.
RDT-1B
Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.
Top robotics / vla picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreLa tarificación en esta categoría aún no está estandarizada. La mayoría de los modelos en esta página corren en infraestructura GPU dedicada — Vast.ai, Replicate, auto-alojada — y pagas por segundo de cómputo de inferencia en lugar de por llamada o por token. Planifica en torno a 0,001-0,01 € por paso de inferencia (un fotograma de cámara más una instrucción) en hardware de clase H100. Una política continua corriendo a 10 Hz cuesta aproximadamente 0,36-3,60 € por hora de operación de robot, antes de costes de energía y supervisión.
El triángulo de compromiso es generalización, latencia y alcance físico. Los VLA más grandes (RT-2-X, OpenVLA-7B) generalizan a objetos e instrucciones nuevas pero infieren a 1-3 Hz, lo cual es demasiado lento para control diestro en bucle cerrado. Los modelos destilados más pequeños (Octo, π-0-fast, RDT-1B) alcanzan 30-50 Hz pero solo generalizan dentro de su distribución de entrenamiento. Para manipulación sobre mesa en una celda controlada, el modelo pequeño y rápido suele ser correcto. Para investigación que necesita generalización lingüística y visual, lo es el modelo más grande.
Cuidado con la brecha sim-to-real: la mayoría de los datos de entrenamiento de VLA se recogen en simulación o en encarnaciones robóticas específicas. Desplegar en un brazo, pinza o geometría de cámara distintas suele requerir afinado con unos cientos o unos miles de demostraciones nuevas. Cuidado también con la seguridad — estos modelos ocasionalmente emiten trayectorias articulares inseguras; ejecuta siempre un filtro de seguridad de bajo nivel (límites articulares, límites de fuerza, límites de área de trabajo) entre la política y el hardware.
Las selecciones principales arriba cubren el puntero de investigación más generalizable, la opción más barata para correr en GPU compartida, el modelo de pesos abiertos más grande y la política de control en tiempo real más rápida. Las ofertas comerciales de API gestionada se añadirán según los proveedores las lancen.
Popular use cases
Common patterns built with robotics / vla on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.