Robotics / VLA

Vision-Language-Action models for robotics and embodied AI

Modèles vision-langage-action pour robotique et IA incarnée

Les modèles vision-langage-action (VLA) font le pont entre perception, langage et contrôle moteur. Un VLA prend des frames de caméra plus une instruction en langage naturel (« prends la tasse rouge ») et sort des actions robot bas niveau — angles articulaires, commandes de pince, poses d'effecteur final. La plupart sont des artefacts de recherche de laboratoires comme Physical Intelligence, Google DeepMind, Stanford et Berkeley.

12 models available

Gemini Robotics (2025)

RoboticsGoogle DeepMind

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Free
googledeepmindgemini

Gemini Robotics-ER

RoboticsGoogle DeepMind

Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.

Free
googledeepmindgemini

Google RT-2-X

RoboticsGoogle DeepMind

Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.

Free
googlevlarobotics

LeRobot SmolVLA

RoboticsCustom

HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.

Free
huggingfacelerobotvla

NVIDIA Cosmos-Predict-1

RoboticsCustom

NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.

Free
nvidiacosmosvla

Octo Base

RoboticsUC Berkeley

Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.

Free
berkeleystanfordvla

Octo Small

RoboticsUC Berkeley

Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.

Free
berkeleyvlarobotics

OpenVLA-7B

RoboticsOpenVLA

Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.

Free
stanfordberkeleyvla

Physical Intelligence Pi-0-FAST

RoboticsPhysical Intelligence

Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0

RoboticsPhysical Intelligence

Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0.5

RoboticsPhysical Intelligence

Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.

Free
physical-intelligencevlarobotics

RDT-1B

RoboticsCustom

Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.

Free
tsinghuavlarobotics

Top robotics / vla picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Meilleur global
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Le moins cher
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Plus grands poids ouverts
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Le plus rapide
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more

La tarification dans cette catégorie n'est pas encore standardisée. La plupart des modèles de cette page tournent sur infrastructure GPU dédiée — Vast.ai, Replicate, auto-hébergé — et vous payez à la seconde de compute d'inférence plutôt qu'à l'appel ou au token. Comptez 0,001 à 0,01 € par étape d'inférence (une frame caméra plus une instruction) sur hardware classe H100. Une politique continue tournant à 10 Hz coûte environ 0,36 à 3,60 € par heure d'opération robot, hors coûts d'énergie et de supervision.

Le triangle de compromis est généralisation, latence et portée physique. Les VLA plus grands (RT-2-X, OpenVLA-7B) généralisent à des objets et instructions inédits mais inférent à 1 à 3 Hz, ce qui est trop lent pour le contrôle dextérité en boucle fermée. Les modèles distillés plus petits (Octo, π-0-fast, RDT-1B) atteignent 30 à 50 Hz mais ne généralisent que dans leur distribution d'entraînement. Pour la manipulation sur table dans une cellule contrôlée, le petit modèle rapide est généralement correct. Pour la recherche qui a besoin de généralisation langagière et visuelle, le plus grand l'est.

Attention au gap sim-to-real : la plupart des données d'entraînement VLA sont collectées en simulation ou sur des embodiments robot précis. Déployer sur un autre bras, une autre pince ou une autre géométrie de caméra nécessite typiquement un fine-tuning sur quelques centaines à quelques milliers de nouvelles démonstrations. Attention aussi à la sécurité — ces modèles sortent occasionnellement des trajectoires articulaires unsafe ; lancez toujours un filtre de sécurité bas niveau (limites articulaires, limites de force, limites de workspace) entre la politique et le matériel.

Les top picks ci-dessus couvrent le phare de recherche le plus généralisable, l'option à exécuter sur GPU mutualisé la moins chère, le plus grand modèle open-weights et la politique de contrôle temps réel la plus rapide. Les offres API managées commerciales seront ajoutées au fur et à mesure que les fournisseurs les lanceront.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.