Puces d'inférence IA custom (LPU). Conçues expressément pour la génération séquentielle de tokens. 500–800 tok/s, souvent 10x plus rapide que les GPU.
Pourquoi c'est important
A prouvé que l'inférence n'a pas à être lente. Approche matérielle vs optimisation logicielle.
En profondeur
Modèle d'exécution déterministe qui élimine le surcoût d'ordonnancement. Compromis : inférence uniquement, optimal pour les patterns Transformer standards. Coût par token encore en évolution.