Zubnet AIAprenderWiki › IA en el borde
Infraestructura

IA en el borde

También conocido como: IA en dispositivo, IA local, On-Device AI
Ejecutar IA en dispositivos del usuario final (teléfonos, laptops, autos) en lugar de la nube. Privado, latencia cero, funciona sin conexión.

Por qué importa

La intersección de privacidad + latencia + costo. Un modelo de 3B en tu teléfono muchas veces supera a uno de 400B en un centro de datos para las tareas correctas.

En profundidad

La restricción de memoria es la clave: un modelo de 3B a 4 bits ≈ 1.5 GB (factible en un teléfono), un modelo de 7B ≈ 4 GB (factible en un laptop). Apple Silicon con memoria unificada habilitó los LLMs locales — la CPU y la GPU comparten la misma RAM, eliminando la copia de datos que mata el rendimiento en arquitecturas tradicionales.

NPUs: el hardware dedicado

Los NPUs (Neural Processing Units) en chips modernos de Apple, Qualcomm e Intel están diseñados específicamente para operaciones de redes neuronales. Son más eficientes energéticamente que las GPUs para inferencia porque optimizan multiplicaciones de matrices a bajo bitwidth. El Apple Neural Engine puede ejecutar ~35 TOPS (trillones de operaciones por segundo) consumiendo una fracción de la energía de la GPU.

El futuro híbrido

El modelo que emerge es híbrido: tareas rápidas, privadas o que necesitan baja latencia se ejecutan localmente (autocompletado, procesamiento de voz, clasificación de fotos), mientras que tareas complejas que necesitan modelos grandes van a la nube. La decisión de qué va donde se convierte en una pregunta de ingeniería sobre privacidad, costo, latencia y calidad.

Conceptos relacionados

← Todos los términos
← IA en ciberseguridad IA generativa →