La restricción de memoria es la clave: un modelo de 3B a 4 bits ≈ 1.5 GB (factible en un teléfono), un modelo de 7B ≈ 4 GB (factible en un laptop). Apple Silicon con memoria unificada habilitó los LLMs locales — la CPU y la GPU comparten la misma RAM, eliminando la copia de datos que mata el rendimiento en arquitecturas tradicionales.
Los NPUs (Neural Processing Units) en chips modernos de Apple, Qualcomm e Intel están diseñados específicamente para operaciones de redes neuronales. Son más eficientes energéticamente que las GPUs para inferencia porque optimizan multiplicaciones de matrices a bajo bitwidth. El Apple Neural Engine puede ejecutar ~35 TOPS (trillones de operaciones por segundo) consumiendo una fracción de la energía de la GPU.
El modelo que emerge es híbrido: tareas rápidas, privadas o que necesitan baja latencia se ejecutan localmente (autocompletado, procesamiento de voz, clasificación de fotos), mientras que tareas complejas que necesitan modelos grandes van a la nube. La decisión de qué va donde se convierte en una pregunta de ingeniería sobre privacidad, costo, latencia y calidad.