Robotics / VLA

Vision-Language-Action models for robotics and embodied AI

Modele vision-language-action dla robotyki i embodied AI

Modele vision-language-action (VLA) łączą percepcję, język i sterowanie motoryczne. VLA bierze klatki z kamery plus instrukcję w języku naturalnym ('podnieś czerwony kubek') i zwraca akcje robota niskiego poziomu — kąty stawów, komendy do grippera, pozy end-effectora. Większość to artefakty badawcze z laboratoriów takich jak Physical Intelligence, Google DeepMind, Stanford i Berkeley.

12 models available

Gemini Robotics (2025)

RoboticsGoogle DeepMind

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Free
googledeepmindgemini

Gemini Robotics-ER

RoboticsGoogle DeepMind

Embodied-reasoning variant of Gemini Robotics. Enhanced 3D spatial reasoning and trajectory planning.

Free
googledeepmindgemini

Google RT-2-X

RoboticsGoogle DeepMind

Google's VLA from RT-X collaboration. Trained on Open-X-Embodiment (22 robots, 527 skills), positive transfer.

Free
googlevlarobotics

LeRobot SmolVLA

RoboticsCustom

HuggingFace's 450M VLA pretrained on 487 community LeRobot datasets. Runs on consumer GPUs.

Free
huggingfacelerobotvla

NVIDIA Cosmos-Predict-1

RoboticsCustom

NVIDIA's world foundation model for physical AI. Diffusion-based video prediction for robotics simulation.

Free
nvidiacosmosvla

Octo Base

RoboticsUC Berkeley

Berkeley/Stanford 93M transformer diffusion policy. Pretrained on 800k Open-X-Embodiment episodes.

Free
berkeleystanfordvla

Octo Small

RoboticsUC Berkeley

Compact 27M variant of Octo. Faster inference on consumer GPUs, designed for low-latency control.

Free
berkeleyvlarobotics

OpenVLA-7B

RoboticsOpenVLA

Stanford/Berkeley open VLA trained on 970k Open-X-Embodiment episodes. Supports LoRA fine-tuning.

Free
stanfordberkeleyvla

Physical Intelligence Pi-0-FAST

RoboticsPhysical Intelligence

Autoregressive π-0 variant using FAST action tokenizer. Faster inference at competitive task success.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0

RoboticsPhysical Intelligence

Physical Intelligence's flagship VLA flow-matching policy. Generalist robot control, pretrained on 10k+ hrs robot data.

Free
physical-intelligencevlarobotics

Physical Intelligence π-0.5

RoboticsPhysical Intelligence

Upgraded π-0 with open-world generalization via knowledge insulation. Weights and fine-tuning open-sourced.

Free
physical-intelligencevlarobotics

RDT-1B

RoboticsCustom

Tsinghua's 1B diffusion-transformer bimanual manipulation policy. Predicts next 64 actions per inference.

Free
tsinghuavlarobotics

Top robotics / vla picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Najlepszy ogólnie
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Najtańszy
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Największe open weights
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more
Najszybszy
Gemini Robotics (2025)

Google DeepMind's vision-language-action model based on Gemini 2.0. Generalist robot policy with strong dexterity.

Learn more

Cennik w tej kategorii nie jest jeszcze ustandaryzowany. Większość modeli na tej stronie działa na dedykowanej infrastrukturze GPU — Vast.ai, Replicate, self-hosted — i płacisz za sekundę obliczeń inferencyjnych, a nie za wywołanie czy za token. Planuj €0,001-€0,01 za krok inferencji (jedna klatka z kamery plus jedna instrukcja) na sprzęcie klasy H100. Ciągła policy działająca przy 10 Hz kosztuje mniej więcej €0,36-€3,60 za godzinę pracy robota, przed kosztami energii i nadzoru.

Trójkąt kompromisu to generalizacja, opóźnienie i zakres fizyczny. Większe VLA (RT-2-X, OpenVLA-7B) generalizują na nowe obiekty i instrukcje, ale wnioskują przy 1-3 Hz, za wolno dla zamkniętej pętli zręcznego sterowania. Mniejsze destylowane modele (Octo, π-0-fast, RDT-1B) osiągają 30-50 Hz, ale generalizują tylko w obrębie swojej dystrybucji treningowej. Dla manipulacji tabletop w kontrolowanej celi mały szybki model jest zwykle właściwy. Dla badań wymagających generalizacji językowej i wizualnej jest większy model.

Uwaga na lukę sim-to-real: większość danych treningowych VLA jest zbierana w symulacji albo na specyficznych embodimentach robotów. Wdrożenie na innym ramieniu, gripperze czy geometrii kamery zwykle wymaga fine-tuningu na kilkuset do kilku tysięcy nowych demonstracjach. Uwaga też na bezpieczeństwo — te modele czasem wyrzucają niebezpieczne trajektorie stawów; zawsze umieść filtr bezpieczeństwa niskiego poziomu (limity stawów, limity siły, granice workspace) między policy a sprzętem.

Top picks powyżej obejmują najbardziej generalizowalnego flagshipa badawczego, najtańszą opcję na współdzielonym GPU, największy model open-weights oraz najszybszą policy sterowania real-time. Komercyjne oferty managed-API zostaną dodane, gdy dostawcy je wypuszczą.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.