Instruction following instruction tuning (instruction-response pairs पर SFT) के माध्यम से trained होती है और RLHF/DPO (instructions को accurately follow करने वाले responses prefer करना सीखना) के माध्यम से refined होती है। Instruction-following की quality training data की diversity और precision पर बहुत निर्भर करती है: जो models "exactly 3 items" के कई उदाहरण देखते हैं वे count करना सीखते हैं; जो models केवल vague instructions देखते हैं वे नहीं।
सामान्य instruction-following failures: length constraints ignore करना ("संक्षिप्त रहें" → फिर भी paragraphs लिखता है), format drift (requested format से शुरू लेकिन prose में revert), constraint amnesia (पहले constraint follow करता है लेकिन complex instruction में बाद के forget करता है), और over-following (ambiguous instructions को बहुत literally या बहुत broadly interpret करना)। ये failures छोटे models में अधिक आम हैं और scale के साथ rarer होती हैं, लेकिन frontier models भी कभी-कभी constraints miss करते हैं।
Instruction following तब complex हो जाती है जब instructions conflict करते हैं: system prompt कहता है "हमेशा JSON में respond करें" लेकिन user कहता है "मुझे एक कविता लिखें।" अधिकांश models instruction hierarchy implement करते हैं जहां system-level instructions user messages पर precedence लेती हैं, लेकिन boundaries fuzzy हैं। Well-designed applications अपनी instruction hierarchy स्पष्ट रूप से structure करती हैं और edge cases test करती हैं जहां instructions के विभिन्न levels conflict कर सकते हैं।