O seguimento de instruções é treinado através de instruction tuning (SFT em pares instrução-resposta) e refinado através de RLHF/DPO (aprendendo a preferir respostas que seguem instruções com precisão). A qualidade do seguimento de instruções depende fortemente da diversidade e precisão dos dados de treinamento: modelos que veem muitos exemplos de "exatamente 3 itens" aprendem a contar; modelos que só veem instruções vagas não aprendem.
Falhas comuns no seguimento de instruções: ignorar restrições de comprimento ("seja breve" → ainda escreve parágrafos), desvio de formato (começar com o formato solicitado mas reverter para prosa), amnésia de restrições (seguir a primeira restrição mas esquecer as posteriores em uma instrução complexa) e seguimento excessivo (interpretar instruções ambíguas muito literalmente ou muito amplamente). Essas falhas são mais comuns em modelos menores e se tornam mais raras com escala, mas mesmo modelos de fronteira ocasionalmente perdem restrições.
O seguimento de instruções se torna complexo quando instruções conflitam: o prompt de sistema diz "sempre responda em JSON" mas o usuário diz "escreva um poema". A maioria dos modelos implementa uma hierarquia de instruções onde instruções de nível de sistema têm precedência sobre mensagens do usuário, mas os limites são difusos. Aplicações bem projetadas estruturam sua hierarquia de instruções claramente e testam casos extremos onde diferentes níveis de instruções podem conflitar.