Robotics / VLA

Vision-Language-Action models for robotics and embodied AI

Modelli vision-language-action per robotica e AI embodied

I modelli vision-language-action (VLA) collegano percezione, linguaggio e controllo motorio. Un VLA prende frame della telecamera più un'istruzione in linguaggio naturale ('prendi la tazza rossa') e produce azioni robot di basso livello — angoli articolari, comandi per il gripper, pose dell'end-effector. La maggior parte sono artefatti di ricerca da laboratori come Physical Intelligence, Google DeepMind, Stanford e Berkeley.

12 models available

Gemini Robotics (2025)

RoboticsGoogle DeepMind

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Free
googledeepmindgemini

Gemini Robotics-ER

RoboticsGoogle DeepMind

Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.

Free
googledeepmindgemini

Google RT-2-X

RoboticsGoogle DeepMind

Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.

Free
googlevlarobotics

LeRobot SmolVLA

RoboticsCustom

HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.

Free
huggingfacelerobotvla

NVIDIA Cosmos-Predict-1

RoboticsCustom

NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.

Free
nvidiacosmosvla

Octo Base

RoboticsUC Berkeley

Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.

Free
berkeleystanfordvla

Octo Small

RoboticsUC Berkeley

Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.

Free
berkeleyvlarobotics

OpenVLA-7B

RoboticsOpenVLA

Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.

Free
stanfordberkeleyvla

Physical Intelligence Pi-0-FAST

RoboticsPhysical Intelligence

Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0

RoboticsPhysical Intelligence

Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0.5

RoboticsPhysical Intelligence

Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.

Free
physical-intelligencevlarobotics

RDT-1B

RoboticsCustom

Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.

Free
tsinghuavlarobotics

Top robotics / vla picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Migliore in assoluto
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Più economico
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Open weights più grande
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Più veloce
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more

Il pricing in questa categoria non è ancora standardizzato. La maggior parte dei modelli su questa pagina gira su infrastruttura GPU dedicata — Vast.ai, Replicate, self-hosted — e si paga per secondo di calcolo di inferenza piuttosto che per chiamata o per token. Pianificate intorno a €0,001-€0,01 per step di inferenza (un frame della telecamera più un'istruzione) su hardware classe H100. Una policy continua che gira a 10 Hz costa più o meno €0,36-€3,60 all'ora di operazione del robot, prima dei costi di energia e supervisione.

Il triangolo di compromessi è generalizzazione, latenza e scopo fisico. VLA più grandi (RT-2-X, OpenVLA-7B) generalizzano a oggetti e istruzioni nuove ma inferiscono a 1-3 Hz, troppo lento per controllo closed-loop e dexterous. I modelli distillati più piccoli (Octo, π-0-fast, RDT-1B) raggiungono 30-50 Hz ma generalizzano solo all'interno della loro distribuzione di training. Per la manipolazione tabletop in una cella controllata, il modello piccolo e veloce è di solito quello giusto. Per la ricerca che richiede generalizzazione linguistica e visuale, lo è il modello più grande.

Attenzione al gap sim-to-real: la maggior parte dei dati di training VLA viene raccolta in simulazione o su embodiment robot specifici. Distribuire su un braccio, un gripper o una geometria di telecamera diversi richiede tipicamente fine-tuning su un centinaio fino a qualche migliaio di nuove dimostrazioni. Attenzione anche alla sicurezza — questi modelli ogni tanto producono traiettorie articolari non sicure; eseguite sempre un filtro di sicurezza a basso livello (limiti articolari, limiti di forza, confini di workspace) tra la policy e l'hardware.

Le top picks qui sopra coprono il flagship di ricerca più generalizzabile, l'opzione più economica run-on-shared-GPU, il più grande modello open-weights e la policy di controllo in tempo reale più veloce. Le offerte commerciali managed-API verranno aggiunte man mano che i fornitori le lanciano.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.