OpenAI ha expandido su programa de bug bounty existente para incluir vulnerabilidades de mal uso de AI junto con fallas de seguridad tradicionales. El programa ahora recompensa a investigadores por encontrar formas en que sus modelos podrían ser explotados con propósitos dañinos—desde generar contenido peligroso hasta eludir las barreras de seguridad. Esto marca un cambio de bugs de seguridad puramente técnicos a problemas conductuales y de seguridad inherentes en large language models.

El momento no es coincidencial. Conforme los modelos de OpenAI se vuelven más capaces, la superficie de ataque para mal uso crece exponencialmente. El red teaming tradicional por equipos internos no puede escalar para igualar la creatividad de millones de usuarios buscando debilidades. Subcontratar este trabajo a través de recompensas tiene sentido, pero también revela qué tan reactivo sigue siendo el enfoque de OpenAI hacia la seguridad. Esencialmente están admitiendo que no pueden predecir todas las formas en que sus modelos fallarán antes del lanzamiento.

Lo que falta en el anuncio de OpenAI son los detalles específicos que más importan. No hay detalles sobre rangos de pago, qué constituye un caso válido de mal uso, o cómo manejarán casos límite donde el comportamiento del modelo está en áreas grises. La empresa tampoco ha explicado cómo prevendrán envíos duplicados o manipulación del sistema—detalles críticos para cualquier programa serio de bug bounty.

Para desarrolladores construyendo sobre las APIs de OpenAI, esto crea tanto oportunidad como incertidumbre. Aunque el programa expandido podría detectar más problemas de seguridad antes de que afecten sistemas de producción, también señala que OpenAI espera problemas continuos de mal uso. Los constructores inteligentes deberían asumir que las barreras de protección del modelo continuarán evolucionando y planear sus aplicaciones en consecuencia, en lugar de depender de las medidas de seguridad actuales como características permanentes.