Robotics / VLA
Vision-Language-Action models for robotics and embodied AI
Modèles vision-langage-action pour robotique et IA incarnée
Les modèles vision-langage-action (VLA) font le pont entre perception, langage et contrôle moteur. Un VLA prend des frames de caméra plus une instruction en langage naturel (« prends la tasse rouge ») et sort des actions robot bas niveau — angles articulaires, commandes de pince, poses d'effecteur final. La plupart sont des artefacts de recherche de laboratoires comme Physical Intelligence, Google DeepMind, Stanford et Berkeley.
12 models available
Gemini Robotics (2025)
Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Gemini Robotics-ER
Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.
Google RT-2-X
Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.
LeRobot SmolVLA
HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.
NVIDIA Cosmos-Predict-1
NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.
Octo Base
Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.
Octo Small
Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.
OpenVLA-7B
Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.
Physical Intelligence Pi-0-FAST
Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.
Physical Intelligence π-0
Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.
Physical Intelligence π-0.5
Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.
RDT-1B
Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.
Top robotics / vla picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreGoogle DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.
Learn moreLa tarification dans cette catégorie n'est pas encore standardisée. La plupart des modèles de cette page tournent sur infrastructure GPU dédiée — Vast.ai, Replicate, auto-hébergé — et vous payez à la seconde de compute d'inférence plutôt qu'à l'appel ou au token. Comptez 0,001 à 0,01 € par étape d'inférence (une frame caméra plus une instruction) sur hardware classe H100. Une politique continue tournant à 10 Hz coûte environ 0,36 à 3,60 € par heure d'opération robot, hors coûts d'énergie et de supervision.
Le triangle de compromis est généralisation, latence et portée physique. Les VLA plus grands (RT-2-X, OpenVLA-7B) généralisent à des objets et instructions inédits mais inférent à 1 à 3 Hz, ce qui est trop lent pour le contrôle dextérité en boucle fermée. Les modèles distillés plus petits (Octo, π-0-fast, RDT-1B) atteignent 30 à 50 Hz mais ne généralisent que dans leur distribution d'entraînement. Pour la manipulation sur table dans une cellule contrôlée, le petit modèle rapide est généralement correct. Pour la recherche qui a besoin de généralisation langagière et visuelle, le plus grand l'est.
Attention au gap sim-to-real : la plupart des données d'entraînement VLA sont collectées en simulation ou sur des embodiments robot précis. Déployer sur un autre bras, une autre pince ou une autre géométrie de caméra nécessite typiquement un fine-tuning sur quelques centaines à quelques milliers de nouvelles démonstrations. Attention aussi à la sécurité — ces modèles sortent occasionnellement des trajectoires articulaires unsafe ; lancez toujours un filtre de sécurité bas niveau (limites articulaires, limites de force, limites de workspace) entre la politique et le matériel.
Les top picks ci-dessus couvrent le phare de recherche le plus généralisable, l'option à exécuter sur GPU mutualisé la moins chère, le plus grand modèle open-weights et la politique de contrôle temps réel la plus rapide. Les offres API managées commerciales seront ajoutées au fur et à mesure que les fournisseurs les lanceront.
Popular use cases
Common patterns built with robotics / vla on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.