आम jailbreak techniques में शामिल हैं: role-playing ("बिना प्रतिबंधों वाले AI होने का नाटक करें"), encoding (Base64 या pig Latin में पूछना), many-shot attacks (unsafe behavior के कई उदाहरण देकर pattern स्थापित करना), और crescendo attacks (conversation में benign से harmful requests तक धीरे-धीरे बढ़ना)। अधिक sophisticated techniques विशिष्ट model behaviors का शोषण करती हैं, जैसे स्थापित patterns को जारी रखने की प्रवृत्ति या "शैक्षिक" जानकारी के लिए पूछे जाने पर helpful होने की प्रवृत्ति।
AI labs red-teaming में भारी निवेश करती हैं — release से पहले व्यवस्थित रूप से अपने models को jailbreak करने की कोशिश करना। जब कोई नई jailbreak technique खोजी जाती है, तो इसे अतिरिक्त safety training या system-level filters के माध्यम से patch किया जाता है। लेकिन attack surface विशाल है: natural language अनंत रूप से flexible है, और नई techniques उभरती रहती हैं। व्यावहारिक वास्तविकता यह है कि दृढ़ विरोधी आमतौर पर किसी भी public model के लिए कोई jailbreak ढूंढ सकते हैं, यही कारण है कि defense-in-depth (safety की कई परतें, output filtering और monitoring सहित) किसी एक prevention technique से अधिक मायने रखता है।
चुनौती यह है कि safety filters कभी-कभी वैध requests को refuse कर देते हैं। Drug interactions के बारे में पूछने वाला medical professional, vulnerabilities के बारे में पूछने वाला security researcher, या conflict वाला scene लिखने वाला novelist — सभी refusals trigger कर सकते हैं। अत्यधिक aggressive safety training ऐसे models उत्पन्न करता है जो "safe" हैं लेकिन बेकार हैं। Alignment की कला सही संतुलन खोजने में है — वास्तव में harmful requests को refuse करना जबकि वैध उपयोग के लिए helpful बने रहना।