Edge AI: Definição e significado — Wiki de IA

Executar IA em dispositivos do usuário final (celulares, notebooks, carros) em vez da nuvem. Privacidade, zero latência, funciona offline.

Por que isso importa

Interseção de privacidade + latência + custo. Um modelo de 3B no seu celular frequentemente supera um de 400B em um datacenter para as tarefas certas.

Em profundidade

Restrição de memória: 3B em 4-bit ≈ 1.5 GB (viável em celular), 7B ≈ 4 GB (notebook). Apple Silicon com memória unificada viabilizou LLMs locais. NPUs (Neural Processing Units) em chips modernos.

O Ecossistema Atual

Apple, Qualcomm, Samsung e Google estão incorporando NPUs dedicadas em seus chips móveis. Frameworks como Core ML, ONNX Runtime, llama.cpp e MLC-LLM permitem executar modelos quantizados em dispositivos de consumo. Apple Silicon com memória unificada é particularmente eficiente — um MacBook com 16 GB pode rodar modelos de 7B confortavelmente.

Trade-offs

Edge AI troca capacidade por privacidade e latência. Modelos locais são menores e menos capazes que modelos de fronteira na nuvem. Mas para tarefas específicas (autocomplete, classificação, sumarização curta), um modelo local de 3B com ajuste fino pode ser tão bom quanto um modelo geral de 70B, a custo zero e com privacidade total.

Edge AI

Por que isso importa

Em profundidade

O Ecossistema Atual

Trade-offs

Conceitos relacionados