Las técnicas comunes de jailbreak incluyen: juego de roles ("Finge que eres una IA sin restricciones"), codificación (preguntar en Base64 o pig Latin), ataques many-shot (proporcionar muchos ejemplos del comportamiento inseguro para establecer un patrón), y ataques crescendo (escalar gradualmente de solicitudes benignas a dañinas a lo largo de una conversación). Técnicas más sofisticadas explotan comportamientos específicos del modelo, como la tendencia a continuar patrones establecidos o a ser servicial cuando se solicita información "educativa".
Los laboratorios de IA invierten fuertemente en red-teaming — intentar sistemáticamente vulnerar sus propios modelos antes del lanzamiento. Cuando se descubre una nueva técnica de jailbreak, se parchea mediante entrenamiento de seguridad adicional o filtros a nivel de sistema. Pero la superficie de ataque es vasta: el lenguaje natural es infinitamente flexible y siguen surgiendo nuevas técnicas. La realidad práctica es que adversarios determinados generalmente pueden encontrar algún jailbreak para cualquier modelo público, razón por la cual la defensa en profundidad (múltiples capas de seguridad, incluyendo filtrado de salida y monitoreo) importa más que cualquier técnica de prevención individual.
El desafío es que los filtros de seguridad a veces rechazan solicitudes legítimas. Un profesional médico preguntando sobre interacciones de medicamentos, un investigador de seguridad preguntando sobre vulnerabilidades, o un novelista escribiendo una escena con conflicto podrían todos activar rechazos. Un entrenamiento de seguridad excesivamente agresivo produce modelos que son "seguros" pero inútiles. El arte de la alineación está en encontrar el equilibrio correcto — rechazar solicitudes genuinamente dañinas mientras se permanece útil para las legítimas.