कस्टम AI inference चिप्स (LPUs)। क्रमिक token generation के लिए विशेष रूप से निर्मित। 500–800 tok/s, अक्सर GPUs से 10 गुना तेज़।
यह क्यों मायने रखता है
साबित किया कि inference धीमा होना ज़रूरी नहीं है। सॉफ़्टवेयर optimization बनाम hardware दृष्टिकोण।
गहन अध्ययन
Deterministic execution model scheduling overhead को समाप्त करता है। Trade-offs: केवल inference, मानक Transformer patterns के लिए सर्वोत्तम। Cost-per-token अभी भी विकसित हो रहा है।