Un sistema de IA llamado The AI Scientist produjo un artículo de machine learning que obtuvo puntajes lo suficientemente altos para pasar la revisión por pares en un taller de ICLR, obteniendo puntajes de revisores de 6, 7 y 6 para un promedio de 6.33—por encima del umbral de aceptación y en el top 45% de las presentaciones. Pero el contenido del artículo no era notable: probó una técnica que finalmente no mejoró el aprendizaje de redes neuronales. El equipo de investigación lo retiró antes de la aceptación bajo su protocolo preestablecido para trabajos generados por IA.

La historia real no son los hallazgos mediocres del artículo, sino cómo se hizo. The AI Scientist automatizó la generación de ideas, revisión de literatura, experimentación, escritura de manuscritos y revisión por pares a través de todo el pipeline de investigación. Esto va mucho más allá de las herramientas actuales de IA que ayudan con programación o análisis de datos—está automatizando la formación de hipótesis y interpretación científica, las partes que los investigadores pensaban que definían su trabajo. Publicado en Nature, esto representa el primer caso documentado de IA superando una barrera de revisión por pares de extremo a extremo, incluso en el nivel más bajo de taller.

Las limitaciones son significativas y reveladoras. Ninguno de los tres artículos alcanzó los estándares para la conferencia principal de ICLR, y los talleres aceptan 70% de las presentaciones versus 32% para la pista principal. Los humanos aún filtraron manualmente las salidas antes de la presentación, eligiendo los candidatos más prometedores. El sistema solo funciona en machine learning donde los experimentos corren completamente en computadoras, no en campos que requieren laboratorios físicos o validación compleja del mundo real.

Para los constructores de IA, esto señala un cambio de herramientas que asisten la investigación a sistemas que intentan investigación. Las implicaciones son incómodas: si la IA puede generar trabajo publicable a estándares de taller hoy, ¿qué pasa con las carreras científicas, la credibilidad de la revisión por pares y la calidad de la investigación mañana? La tecnología funciona, apenas—pero las preguntas que plantea sobre la ciencia misma apenas están comenzando.