O loop do agente: (1) observar o estado atual (o que foi feito, que informação está disponível), (2) planejar a próxima ação (usando o raciocínio do LLM), (3) executar a ação (chamada de ferramenta, execução de código, requisição de API), (4) observar o resultado, (5) decidir se continua, ajusta ou completa. Esse loop observar-planejar-agir se repete até a tarefa estar concluída ou o agente ficar travado e pedir ajuda.
O desafio fundamental: cada passo no workflow de um agente tem alguma probabilidade de erro (escolha errada de ferramenta, raciocínio incorreto, resultado mal interpretado). Ao longo de um workflow de 10 passos, mesmo uma precisão de 95% por passo resulta em apenas 60% de sucesso geral. É por isso que agentes atuais funcionam melhor para tarefas que toleram erros em passos individuais (pesquisa, brainstorming) e têm dificuldade com tarefas que exigem precisão em cada passo (transações financeiras, documentos legais).
A maioria dos deployments de agentes em produção inclui supervisão humana: o agente propõe ações, um humano aprova ou corrige, e o agente continua. Essa abordagem "humano no loop" sacrifica autonomia total por confiabilidade. A tendência é autonomia mais ampla para ações de baixo risco (ler arquivos, buscar) e aprovação humana para as de alto risco (enviar e-mails, fazer compras, modificar sistemas de produção). O nível certo de autonomia depende do custo dos erros.