Robotics / VLA

Vision-Language-Action models for robotics and embodied AI

Modelos visión-lenguaje-acción para robótica e IA encarnada

Los modelos visión-lenguaje-acción (VLA) tienden un puente entre percepción, lenguaje y control motor. Un VLA toma fotogramas de cámara más una instrucción en lenguaje natural («coge la taza roja») y emite acciones de bajo nivel del robot — ángulos articulares, comandos de pinza, poses del efector final. La mayoría son artefactos de investigación de laboratorios como Physical Intelligence, Google DeepMind, Stanford y Berkeley.

12 models available

Gemini Robotics (2025)

RoboticsGoogle DeepMind

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Free
googledeepmindgemini

Gemini Robotics-ER

RoboticsGoogle DeepMind

Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.

Free
googledeepmindgemini

Google RT-2-X

RoboticsGoogle DeepMind

Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.

Free
googlevlarobotics

LeRobot SmolVLA

RoboticsCustom

HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.

Free
huggingfacelerobotvla

NVIDIA Cosmos-Predict-1

RoboticsCustom

NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.

Free
nvidiacosmosvla

Octo Base

RoboticsUC Berkeley

Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.

Free
berkeleystanfordvla

Octo Small

RoboticsUC Berkeley

Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.

Free
berkeleyvlarobotics

OpenVLA-7B

RoboticsOpenVLA

Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.

Free
stanfordberkeleyvla

Physical Intelligence Pi-0-FAST

RoboticsPhysical Intelligence

Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0

RoboticsPhysical Intelligence

Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0.5

RoboticsPhysical Intelligence

Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.

Free
physical-intelligencevlarobotics

RDT-1B

RoboticsCustom

Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.

Free
tsinghuavlarobotics

Top robotics / vla picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Mejor en general
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Más barato
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Pesos abiertos más grandes
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Más rápido
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more

La tarificación en esta categoría aún no está estandarizada. La mayoría de los modelos en esta página corren en infraestructura GPU dedicada — Vast.ai, Replicate, auto-alojada — y pagas por segundo de cómputo de inferencia en lugar de por llamada o por token. Planifica en torno a 0,001-0,01 € por paso de inferencia (un fotograma de cámara más una instrucción) en hardware de clase H100. Una política continua corriendo a 10 Hz cuesta aproximadamente 0,36-3,60 € por hora de operación de robot, antes de costes de energía y supervisión.

El triángulo de compromiso es generalización, latencia y alcance físico. Los VLA más grandes (RT-2-X, OpenVLA-7B) generalizan a objetos e instrucciones nuevas pero infieren a 1-3 Hz, lo cual es demasiado lento para control diestro en bucle cerrado. Los modelos destilados más pequeños (Octo, π-0-fast, RDT-1B) alcanzan 30-50 Hz pero solo generalizan dentro de su distribución de entrenamiento. Para manipulación sobre mesa en una celda controlada, el modelo pequeño y rápido suele ser correcto. Para investigación que necesita generalización lingüística y visual, lo es el modelo más grande.

Cuidado con la brecha sim-to-real: la mayoría de los datos de entrenamiento de VLA se recogen en simulación o en encarnaciones robóticas específicas. Desplegar en un brazo, pinza o geometría de cámara distintas suele requerir afinado con unos cientos o unos miles de demostraciones nuevas. Cuidado también con la seguridad — estos modelos ocasionalmente emiten trayectorias articulares inseguras; ejecuta siempre un filtro de seguridad de bajo nivel (límites articulares, límites de fuerza, límites de área de trabajo) entre la política y el hardware.

Las selecciones principales arriba cubren el puntero de investigación más generalizable, la opción más barata para correr en GPU compartida, el modelo de pesos abiertos más grande y la política de control en tiempo real más rápida. Las ofertas comerciales de API gestionada se añadirán según los proveedores las lancen.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.