Question 1

Posso usar estes modelos comercialmente?

Accepted Answer

A maior parte dos modelos VLA nesta página é só para investigação — licença Apache 2.0 ou MIT no código, restrita a investigação não comercial nos pesos. Alguns (π-0-fast, RDT-1B) saem com licenças mais alargadas. Leia sempre o cartão do modelo antes de implementar num produto pago. Espera-se que ofertas comerciais com API gerida se generalizem ao longo de 2026.

Question 2

Em que hardware correm?

Accepted Answer

A inferência exige normalmente uma única GPU H100 ou A100 por robô a 10-50 Hz. As policies destiladas mais pequenas (Octo-small, π-0-fast) podem correr numa única 4090 ou A6000. Em investigação, a maior parte dos laboratórios fá-las correr em workstations próximas do robô. Em produção, conte dedicar uma GPU por robô ativo ou uma GPU partilhada por uma pequena frota.

Question 3

Como é faturada a inferência?

Accepted Answer

Em plataformas com GPUs partilhadas (Vast.ai, Replicate), paga-se por segundo de computação — tipicamente €0,001-€0,01 por passo de inferência em hardware de classe H100. Uma policy a 10 Hz a correr 1 hora custa €0,36-€3,60 em tempo bruto de GPU. Self-hosted no seu próprio hardware é eletricidade mais depreciação.

Question 4

Que embodiments de robô são suportados?

Accepted Answer

A maior parte dos VLA é treinada em plataformas específicas — Franka Panda, UR5, ALOHA, mobile ALOHA, Cobot Magic, etc. A generalização cross-embodiment está a melhorar (Octo e RT-X foram tentativas explícitas), mas implementar num braço novo exige tipicamente 100-1.000 demonstrações de fine-tuning. Verifique o cartão do modelo para os embodiments de treino.

Question 5

Conseguem manipulação dexterous?

Accepted Answer

Pick-and-place tabletop é fiável na maior parte dos VLA. Dexterity multi-finger, manipulação in-hand e uso de ferramentas continuam difíceis — funcionam em demos mas generalizam mal. O π-0 e o RT-2 mostram hoje a dexterity mais forte em investigação aberta; espere progresso rápido ao longo de 2026.

Question 6

Qual a diferença entre VLA e uma policy network normal?

Accepted Answer

Uma policy normal mapeia observações em ações. Um VLA condiciona adicionalmente sobre uma instrução em linguagem natural, pelo que a mesma policy pode fazer 'apanha a chávena vermelha' e 'apanha a chávena azul' a partir do mesmo modelo. Isto desloca a complexidade do treino por tarefa para o pretrain em larga escala de pares instrução-ação.

Question 7

Como faço fine-tuning para o meu robô?

Accepted Answer

Recolha 100-1.000 demonstrações teleoperadas das tarefas-alvo e corra supervised fine-tuning (tipicamente LoRA) no checkpoint pretrained. A maior parte dos repositórios inclui um script de fine-tuning. Planeie 4-24 horas de tempo de GPU por fine-tune numa única H100, mais alguns dias de iteração de avaliação.

Question 8

Como será o futuro dos VLA comerciais?

Accepted Answer

Physical Intelligence, Skild AI, Covariant e meia dúzia de laboratórios em stealth estão a construir explicitamente VLAs comerciais de uso geral com APIs geridas. Espere que as primeiras ofertas comerciais (provavelmente verticalmente integradas com OEMs específicos de robôs) sejam lançadas ao longo de 2026 e 2027. O Railwail listá-las-á aqui à medida que forem chegando.

Robotics / VLA

Modelos vision-language-action para robótica e IA embodied

Gemini Robotics (2025)

Gemini Robotics-ER

Google RT-2-X

LeRobot SmolVLA

NVIDIA Cosmos-Predict-1

Octo Base

Octo Small

OpenVLA-7B

Physical Intelligence Pi-0-FAST

Physical Intelligence π-0

Physical Intelligence π-0.5

RDT-1B

Top robotics / vla picks

Popular use cases

Related comparisons

RT-2-X vs OpenVLA-7B

Octo-base vs π-0

π-0 vs π-0-fast

RDT-1B vs OpenVLA-7B

Frequently asked questions

Start Building with AI