Robotics / VLA

Vision-Language-Action models for robotics and embodied AI

Modelos vision-language-action para robótica e IA embodied

Os modelos vision-language-action (VLA) ligam perceção, linguagem e controlo motor. Um VLA recebe frames de câmara mais uma instrução em linguagem natural ('apanha a chávena vermelha') e devolve ações de robô de baixo nível — ângulos de articulação, comandos para o gripper, poses do end-effector. A maior parte são artefactos de investigação de laboratórios como Physical Intelligence, Google DeepMind, Stanford e Berkeley.

12 models available

Gemini Robotics (2025)

RoboticsGoogle DeepMind

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Free
googledeepmindgemini

Gemini Robotics-ER

RoboticsGoogle DeepMind

Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.

Free
googledeepmindgemini

Google RT-2-X

RoboticsGoogle DeepMind

Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.

Free
googlevlarobotics

LeRobot SmolVLA

RoboticsCustom

HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.

Free
huggingfacelerobotvla

NVIDIA Cosmos-Predict-1

RoboticsCustom

NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.

Free
nvidiacosmosvla

Octo Base

RoboticsUC Berkeley

Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.

Free
berkeleystanfordvla

Octo Small

RoboticsUC Berkeley

Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.

Free
berkeleyvlarobotics

OpenVLA-7B

RoboticsOpenVLA

Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.

Free
stanfordberkeleyvla

Physical Intelligence Pi-0-FAST

RoboticsPhysical Intelligence

Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0

RoboticsPhysical Intelligence

Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0.5

RoboticsPhysical Intelligence

Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.

Free
physical-intelligencevlarobotics

RDT-1B

RoboticsCustom

Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.

Free
tsinghuavlarobotics

Top robotics / vla picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Melhor no global
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Mais barato
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Maior open weights
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Mais rápido
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more

O pricing nesta categoria ainda não é standardizado. A maior parte dos modelos nesta página corre em infraestrutura GPU dedicada — Vast.ai, Replicate, self-hosted — e paga-se por segundo de computação de inferência em vez de por chamada ou por token. Planeie €0,001-€0,01 por passo de inferência (um frame de câmara mais uma instrução) em hardware de classe H100. Uma policy contínua a 10 Hz custa cerca de €0,36-€3,60 por hora de operação do robô, antes dos custos de energia e supervisão.

O triângulo de compromissos é generalização, latência e âmbito físico. Os VLAs maiores (RT-2-X, OpenVLA-7B) generalizam para objetos e instruções novos mas fazem inferência a 1-3 Hz, demasiado lento para controlo dexterous em malha fechada. Modelos destilados mais pequenos (Octo, π-0-fast, RDT-1B) atingem 30-50 Hz mas só generalizam dentro da distribuição de treino. Para manipulação tabletop numa célula controlada, o modelo pequeno e rápido é normalmente o correto. Para investigação que precisa de generalização linguística e visual, é o modelo maior.

Atenção ao gap sim-to-real: a maior parte dos dados de treino dos VLA é recolhida em simulação ou sobre embodiments de robô específicos. Implementar num braço, gripper ou geometria de câmara diferentes requer normalmente fine-tuning sobre centenas a milhares de novas demonstrações. Atenção também à segurança — estes modelos por vezes geram trajetórias de articulação inseguras; coloque sempre um filtro de segurança de baixo nível (limites de articulação, limites de força, fronteiras de workspace) entre a policy e o hardware.

As top picks acima cobrem o flagship de investigação mais generalizável, a opção mais barata para correr em GPU partilhada, o maior modelo open-weights e a policy de controlo em tempo real mais rápida. Ofertas comerciais com API gerida serão acrescentadas à medida que os fornecedores as lançarem.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.