IA en el borde: Definición y significado — Wiki de IA

Ejecutar IA en dispositivos del usuario final (teléfonos, laptops, autos) en lugar de la nube. Privado, latencia cero, funciona sin conexión.

Por qué importa

La intersección de privacidad + latencia + costo. Un modelo de 3B en tu teléfono muchas veces supera a uno de 400B en un centro de datos para las tareas correctas.

En profundidad

La restricción de memoria es la clave: un modelo de 3B a 4 bits ≈ 1.5 GB (factible en un teléfono), un modelo de 7B ≈ 4 GB (factible en un laptop). Apple Silicon con memoria unificada habilitó los LLMs locales — la CPU y la GPU comparten la misma RAM, eliminando la copia de datos que mata el rendimiento en arquitecturas tradicionales.

NPUs: el hardware dedicado

Los NPUs (Neural Processing Units) en chips modernos de Apple, Qualcomm e Intel están diseñados específicamente para operaciones de redes neuronales. Son más eficientes energéticamente que las GPUs para inferencia porque optimizan multiplicaciones de matrices a bajo bitwidth. El Apple Neural Engine puede ejecutar ~35 TOPS (trillones de operaciones por segundo) consumiendo una fracción de la energía de la GPU.

El futuro híbrido

El modelo que emerge es híbrido: tareas rápidas, privadas o que necesitan baja latencia se ejecutan localmente (autocompletado, procesamiento de voz, clasificación de fotos), mientras que tareas complejas que necesitan modelos grandes van a la nube. La decisión de qué va donde se convierte en una pregunta de ingeniería sobre privacidad, costo, latencia y calidad.

IA en el borde

Por qué importa

En profundidad

NPUs: el hardware dedicado

El futuro híbrido

Conceptos relacionados