Question 1

Darf ich diese Modelle kommerziell nutzen?

Accepted Answer

Die meisten VLA-Modelle auf dieser Seite sind reine Forschungsmodelle — Apache 2.0 oder MIT-Lizenz auf dem Code, auf nicht-kommerzielle Forschung beschränkt bei den Gewichten. Wenige (π-0-fast, RDT-1B) liefern breitere Lizenzen aus. Lies die Modellkarte immer, bevor du in einem bezahlten Produkt ausspielst. Kommerzielle Managed-API-Angebote werden voraussichtlich über 2026 ausgerollt.

Question 2

Auf welcher Hardware laufen sie?

Accepted Answer

Inferenz braucht typisch eine einzelne H100 oder A100 GPU pro Roboter bei 10–50 Hz. Kleinere destillierte Policies (Octo-small, π-0-fast) laufen auf einer einzelnen 4090 oder A6000. In der Forschung laufen sie in den meisten Laboren auf Workstations direkt am Roboter. Für die Produktion plane mit einer dedizierten GPU pro aktivem Roboter oder einer geteilten GPU über eine kleine Flotte.

Question 3

Wie wird Inferenz abgerechnet?

Accepted Answer

Auf geteilten GPU-Plattformen (Vast.ai, Replicate) zahlst du pro Sekunde Rechenzeit — typisch 0,001–0,01 € pro Inferenz-Schritt auf H100-Klasse-Hardware. Eine 10-Hz-Policy, die 1 Stunde läuft, kostet 0,36–3,60 € reine GPU-Zeit. Selbst gehostet auf eigener Hardware sind es Strom plus Abschreibung.

Question 4

Welche Roboter-Embodiments werden unterstützt?

Accepted Answer

Die meisten VLAs werden auf bestimmten Plattformen trainiert — Franka Panda, UR5, ALOHA, Mobile ALOHA, Cobot Magic usw. Cross-Embodiment-Generalisierung verbessert sich (Octo und RT-X waren explizite Versuche), aber Deployment auf einem neuen Arm braucht typisch immer noch 100–1.000 Fine-Tuning-Demonstrationen. Schau in die Modellkarte für trainierte Embodiments.

Question 5

Können sie dexterous Manipulation?

Accepted Answer

Tischbasiertes Pick-and-Place ist auf den meisten VLAs zuverlässig. Mehrfinger-Geschicklichkeit, In-Hand-Manipulation und Tool-Use sind weiterhin schwer — sie funktionieren in Demos, generalisieren aber schlecht. π-0 und RT-2 zeigen aktuell die stärkste Geschicklichkeit in der offenen Forschung; rechne mit raschen Fortschritten bis 2026.

Question 6

Was ist der Unterschied zwischen einem VLA und einem normalen Policy-Network?

Accepted Answer

Eine normale Policy mappt Beobachtungen auf Aktionen. Ein VLA konditioniert zusätzlich auf eine natürlichsprachliche Anweisung, sodass dieselbe Policy 'hebe den roten Becher auf' und 'hebe die blaue Tasse auf' aus demselben Modell heraus kann. Das verschiebt Komplexität vom Per-Task-Training hin zu grossmassstäblichem Instruction-Action-Pretraining.

Question 7

Wie finetune ich auf meinen Roboter?

Accepted Answer

Sammle 100–1.000 teleoperierte Demonstrationen deiner Zielaufgaben und führe dann supervised Fine-Tuning (typisch LoRA) auf dem vortrainierten Checkpoint aus. Die meisten Repositories enthalten ein Fine-Tuning-Skript. Plane mit 4–24 Stunden GPU-Zeit pro Fine-Tune auf einer einzelnen H100, plus ein paar Tagen Evaluierungs-Iteration.

Question 8

Wie sieht die Zukunft kommerzieller VLAs aus?

Accepted Answer

Physical Intelligence, Skild AI, Covariant und eine Handvoll Stealth-Labore bauen explizit allzweckfähige kommerzielle VLAs mit Managed APIs. Rechne damit, dass die ersten kommerziellen Angebote (wahrscheinlich vertikal integriert mit bestimmten Roboter-OEMs) über 2026 und 2027 ausgespielt werden. Railwail listet sie hier, sobald sie an den Start gehen.

Robotics / VLA

Vision-Language-Action-Modelle für Robotik und Embodied AI

Gemini Robotics (2025)

Gemini Robotics-ER

Google RT-2-X

LeRobot SmolVLA

NVIDIA Cosmos-Predict-1

Octo Base

Octo Small

OpenVLA-7B

Physical Intelligence Pi-0-FAST

Physical Intelligence π-0

Physical Intelligence π-0.5

RDT-1B

Top robotics / vla picks

Popular use cases

Related comparisons

RT-2-X vs OpenVLA-7B

Octo-base vs π-0

π-0 vs π-0-fast

RDT-1B vs OpenVLA-7B

Frequently asked questions

Start Building with AI