Question 1

Posso usare questi modelli commercialmente?

Accepted Answer

La maggior parte dei modelli VLA su questa pagina è solo per ricerca — licenza Apache 2.0 o MIT sul codice, limitata alla ricerca non commerciale sui pesi. Alcuni (π-0-fast, RDT-1B) escono con licenze più ampie. Leggete sempre la model card prima di distribuire su un prodotto a pagamento. Si prevede che le offerte commerciali managed-API si diffondano nel 2026.

Question 2

Su quale hardware girano?

Accepted Answer

L'inferenza richiede tipicamente una singola GPU H100 o A100 per robot a 10-50 Hz. Le policy distillate più piccole (Octo-small, π-0-fast) possono girare su una singola 4090 o A6000. Per la ricerca, la maggior parte dei laboratori le esegue su workstation adiacenti al robot. Per la produzione, prevedete di dedicare una GPU per robot attivo o una GPU condivisa su una piccola flotta.

Question 3

Come viene fatturata l'inferenza?

Accepted Answer

Su piattaforme GPU condivise (Vast.ai, Replicate) si paga per secondo di calcolo — tipicamente €0,001-€0,01 per step di inferenza su hardware classe H100. Una policy a 10 Hz che gira per 1 ora costa €0,36-€3,60 in puro tempo GPU. Self-hosted sul vostro hardware è elettricità più ammortamento.

Question 4

Quali embodiment robot sono supportati?

Accepted Answer

La maggior parte dei VLA è addestrata su piattaforme specifiche — Franka Panda, UR5, ALOHA, mobile ALOHA, Cobot Magic, ecc. La generalizzazione cross-embodiment sta migliorando (Octo e RT-X erano tentativi espliciti), ma distribuire su un braccio nuovo richiede tipicamente 100-1.000 dimostrazioni di fine-tuning. Controllate la model card per gli embodiment di training.

Question 5

Gestiscono la manipolazione dexterous?

Accepted Answer

Il pick-and-place tabletop è affidabile sulla maggior parte dei VLA. La dexterity multi-finger, la manipolazione in-hand e l'uso di tool sono ancora difficili — funzionano nelle demo ma generalizzano male. π-0 e RT-2 mostrano oggi la dexterity più forte nella ricerca aperta; aspettatevi rapidi progressi durante il 2026.

Question 6

Qual è la differenza tra un VLA e una policy network normale?

Accepted Answer

Una policy normale mappa osservazioni in azioni. Un VLA condiziona inoltre su un'istruzione in linguaggio naturale, così la stessa policy può fare 'prendi la tazza rossa' e 'prendi la tazza blu' dallo stesso modello. Questo sposta la complessità dal training per task al pretraining su larga scala su coppie istruzione-azione.

Question 7

Come faccio fine-tuning per il mio robot?

Accepted Answer

Raccogliete 100-1.000 dimostrazioni teleoperate dei vostri task target, poi eseguite supervised fine-tuning (tipicamente LoRA) sul checkpoint pre-addestrato. La maggior parte dei repository include uno script di fine-tuning. Prevedete 4-24 ore di tempo GPU per fine-tune su una singola H100, più qualche giorno di iterazione di evaluation.

Question 8

Che cosa ci aspetta per i VLA commerciali?

Accepted Answer

Physical Intelligence, Skild AI, Covariant e una manciata di laboratori in stealth stanno costruendo esplicitamente VLA commerciali general-purpose con API gestite. Aspettatevi che le prime offerte commerciali (probabilmente verticalmente integrate con OEM robot specifici) arrivino tra 2026 e 2027. Railwail le elencherà qui man mano che vengono lanciate.

Robotics / VLA

Modelli vision-language-action per robotica e AI embodied

Gemini Robotics (2025)

Gemini Robotics-ER

Google RT-2-X

LeRobot SmolVLA

NVIDIA Cosmos-Predict-1

Octo Base

Octo Small

OpenVLA-7B

Physical Intelligence Pi-0-FAST

Physical Intelligence π-0

Physical Intelligence π-0.5

RDT-1B

Top robotics / vla picks

Popular use cases

Related comparisons

RT-2-X vs OpenVLA-7B

Octo-base vs π-0

π-0 vs π-0-fast

RDT-1B vs OpenVLA-7B

Frequently asked questions

Start Building with AI