Técnicas comuns de jailbreak incluem: role-playing ("Finja que você é uma IA sem restrições"), codificação (perguntar em Base64 ou pig Latin), ataques many-shot (fornecer muitos exemplos do comportamento inseguro para estabelecer um padrão) e ataques crescendo (escalar gradualmente de pedidos benignos para prejudiciais ao longo de uma conversa). Técnicas mais sofisticadas exploram comportamentos específicos do modelo, como a tendência de continuar padrões estabelecidos ou de ser prestativo quando solicitado por informações "educacionais".
Laboratórios de IA investem pesado em red-teaming — tentando sistematicamente desbloquear seus próprios modelos antes do lançamento. Quando uma nova técnica de jailbreak é descoberta, ela é corrigida através de treinamento adicional de segurança ou filtros a nível de sistema. Mas a superfície de ataque é vasta: linguagem natural é infinitamente flexível, e novas técnicas continuam surgindo. A realidade prática é que adversários determinados geralmente conseguem encontrar algum jailbreak para qualquer modelo público, por isso a defesa em profundidade (múltiplas camadas de segurança, incluindo filtragem de saída e monitoramento) importa mais do que qualquer técnica de prevenção individual.
O desafio é que filtros de segurança às vezes recusam pedidos legítimos. Um profissional médico perguntando sobre interações medicamentosas, um pesquisador de segurança perguntando sobre vulnerabilidades, ou um romancista escrevendo uma cena com conflito podem todos acionar recusas. Treinamento de segurança excessivamente agressivo produz modelos que são "seguros" mas inúteis. A arte do alinhamento está em encontrar o equilíbrio certo — recusando pedidos genuinamente prejudiciais enquanto permanece útil para os legítimos.