Restrição de memória: 3B em 4-bit ≈ 1.5 GB (viável em celular), 7B ≈ 4 GB (notebook). Apple Silicon com memória unificada viabilizou LLMs locais. NPUs (Neural Processing Units) em chips modernos.
Apple, Qualcomm, Samsung e Google estão incorporando NPUs dedicadas em seus chips móveis. Frameworks como Core ML, ONNX Runtime, llama.cpp e MLC-LLM permitem executar modelos quantizados em dispositivos de consumo. Apple Silicon com memória unificada é particularmente eficiente — um MacBook com 16 GB pode rodar modelos de 7B confortavelmente.
Edge AI troca capacidade por privacidade e latência. Modelos locais são menores e menos capazes que modelos de fronteira na nuvem. Mas para tarefas específicas (autocomplete, classificação, sumarização curta), um modelo local de 3B com ajuste fino pode ser tão bom quanto um modelo geral de 70B, a custo zero e com privacidade total.