El seguimiento de instrucciones se entrena a través de instruction tuning (SFT en pares instrucción-respuesta) y se refina a través de RLHF/DPO (aprender a preferir respuestas que siguen instrucciones con precisión). La calidad del seguimiento de instrucciones depende en gran medida de la diversidad y precisión de los datos de entrenamiento: los modelos que ven muchos ejemplos de "exactamente 3 ítems" aprenden a contar; los modelos que solo ven instrucciones vagas no lo hacen.
Fallos comunes de seguimiento de instrucciones: ignorar restricciones de longitud ("sé breve" y aún así escribe párrafos), deriva de formato (empezar con el formato solicitado pero volver a prosa), amnesia de restricciones (seguir la primera restricción pero olvidar las posteriores en una instrucción compleja), y sobre-seguimiento (interpretar instrucciones ambiguas demasiado literalmente o demasiado ampliamente). Estos fallos son más comunes en modelos pequeños y se vuelven más raros con la escala, pero incluso los modelos de frontera ocasionalmente pierden restricciones.
El seguimiento de instrucciones se complica cuando las instrucciones entran en conflicto: el system prompt dice "siempre responde en JSON" pero el usuario dice "escríbeme un poema". La mayoría de los modelos implementan una jerarquía de instrucciones donde las instrucciones a nivel de sistema tienen precedencia sobre los mensajes del usuario, pero los límites son difusos. Las aplicaciones bien diseñadas estructuran su jerarquía de instrucciones claramente y prueban casos extremos donde diferentes niveles de instrucciones podrían entrar en conflicto.