Un étudiant en médecine du Nigeria nommé Zeus attache un iPhone à son front chaque soir et s'enregistre en train de plier du linge pour 15$ de l'heure. Il fait partie des milliers de travailleurs contractuels dans plus de 50 pays embauchés par la startup de Palo Alto Micro1 pour créer des données d'entraînement pour robots humanoïdes. Tesla, Figure AI et Agility Robotics achètent ces vidéos pour enseigner à leurs robots les mouvements humains de base—de la même façon que ChatGPT a appris le langage à partir du texte d'internet.
Ceci représente un changement fondamental dans l'entraînement robotique. Pendant des décennies, les ingénieurs programmaient les robots avec des instructions explicites. Maintenant, ils parient que les robots peuvent apprendre la manipulation humaine en regardant des millions d'heures d'humains réels accomplissant des tâches banales. L'approche ressemble au fonctionnement des LLMs, mais les données du monde physique sont exponentiellement plus difficiles à collecter que le texte. Les simulations virtuelles peuvent enseigner aux robots à faire des saltos arrière mais ne peuvent pas modéliser avec précision la physique de saisir une tasse de café ou plier un drap-housse.
Ce que le reportage original ne saisit pas complètement, c'est comment ceci crée une nouvelle catégorie de travail IA—la génération de données physiquement incarnées. Contrairement au télétravail typique, ces emplois exigent que les travailleurs effectuent des mouvements précis et répétitifs tout en maintenant les angles de caméra et l'éclairage. Zeus trouve le travail ennuyeux malgré le bon salaire, soulignant une tension entre opportunité économique et satisfaction professionnelle qui définira probablement plusieurs rôles contractuels liés à l'IA.
Pour les développeurs qui construisent des applications robotiques, ceci signale que les données d'entraînement deviennent le goulot d'étranglement, pas le calcul ou les algorithmes. Si vous travaillez sur l'IA incarnée, commencez à penser à votre pipeline de données maintenant—les données de démonstration humaine de qualité seront coûteuses et longues à acquérir à grande échelle.
