Question 1

¿Puedo usar estos modelos comercialmente?

Accepted Answer

La mayoría de los modelos VLA en esta página son solo para investigación — licencia Apache 2.0 o MIT en el código, restringida a investigación no comercial en los pesos. Unos pocos (π-0-fast, RDT-1B) llegan con licencias más amplias. Lee siempre la ficha del modelo antes de desplegar en un producto de pago. Se espera que las ofertas comerciales de API gestionada vayan saliendo a lo largo de 2026.

Question 2

¿En qué hardware corren?

Accepted Answer

La inferencia típicamente requiere una sola GPU H100 o A100 por robot a 10-50 Hz. Las políticas destiladas más pequeñas (Octo-small, π-0-fast) pueden correr en una sola 4090 o A6000. Para investigación, la mayoría de los laboratorios las ejecutan en estaciones de trabajo adyacentes al robot. Para producción, espera dedicar una GPU por robot activo o una GPU compartida entre una pequeña flota.

Question 3

¿Cómo se factura la inferencia?

Accepted Answer

En plataformas de GPU compartida (Vast.ai, Replicate) pagas por segundo de cómputo — típicamente 0,001-0,01 € por paso de inferencia en hardware clase H100. Una política a 10 Hz corriendo 1 hora cuesta 0,36-3,60 € en GPU bruta. Auto-alojarla en tu propio hardware es electricidad más depreciación.

Question 4

¿Qué encarnaciones de robot se admiten?

Accepted Answer

La mayoría de los VLA están entrenados en plataformas específicas — Franka Panda, UR5, ALOHA, ALOHA móvil, Cobot Magic, etc. La generalización entre encarnaciones está mejorando (Octo y RT-X fueron intentos explícitos) pero desplegar en un nuevo brazo aún suele requerir 100-1 000 demostraciones de afinado. Consulta la ficha del modelo para las encarnaciones entrenadas.

Question 5

¿Pueden manejar manipulación diestra?

Accepted Answer

El pick-and-place sobre mesa es fiable en la mayoría de los VLA. La destreza multi-dedo, la manipulación en mano y el uso de herramientas siguen siendo difíciles — funcionan en demos pero generalizan mal. π-0 y RT-2 muestran la mayor destreza hasta la fecha en investigación abierta; espera progresos rápidos a lo largo de 2026.

Question 6

¿Qué diferencia un VLA de una red de política normal?

Accepted Answer

Una política normal mapea observaciones a acciones. Un VLA además condiciona sobre una instrucción en lenguaje natural, así la misma política puede hacer «coge la taza roja» y «coge el vaso azul» desde el mismo modelo. Esto desplaza la complejidad del entrenamiento por tarea al preentrenamiento instrucción-acción a gran escala.

Question 7

¿Cómo afino para mi robot?

Accepted Answer

Recoge 100-1 000 demostraciones teleoperadas de tus tareas objetivo, luego ejecuta afinado supervisado (típicamente LoRA) sobre el checkpoint preentrenado. La mayoría de los repositorios incluyen un script de afinado. Planifica 4-24 horas de tiempo de GPU por afinado en una sola H100, más unos días de iteración de evaluación.

Question 8

¿Cómo es el futuro de los VLA comerciales?

Accepted Answer

Physical Intelligence, Skild AI, Covariant y un puñado de laboratorios en sigilo están construyendo explícitamente VLA comerciales de propósito general con APIs gestionadas. Espera las primeras ofertas comerciales (probablemente integradas verticalmente con OEMs de robots específicos) a lo largo de 2026 y 2027. Railwail las listará aquí según vayan lanzándose.

Robotics / VLA

Modelos visión-lenguaje-acción para robótica e IA encarnada

Gemini Robotics (2025)

Gemini Robotics-ER

Google RT-2-X

LeRobot SmolVLA

NVIDIA Cosmos-Predict-1

Octo Base

Octo Small

OpenVLA-7B

Physical Intelligence Pi-0-FAST

Physical Intelligence π-0

Physical Intelligence π-0.5

RDT-1B

Top robotics / vla picks

Popular use cases

Related comparisons

RT-2-X vs OpenVLA-7B

Octo-base vs π-0

π-0 vs π-0-fast

RDT-1B vs OpenVLA-7B

Frequently asked questions

Start Building with AI