Zubnet AIAprenderWiki › Sesgo
Seguridad

Sesgo

Patrones sistemáticos en las salidas de IA que reflejan o amplifican los prejuicios sociales presentes en los datos de entrenamiento. El sesgo puede aparecer en generación de texto, creación de imágenes, herramientas de contratación y en cualquier lugar donde los modelos tomen decisiones que afectan a las personas de manera diferente.

Por qué importa

Si los datos de entrenamiento dicen que las enfermeras son mujeres y los ingenieros son hombres, el modelo perpetuará eso. El sesgo no siempre es obvio — se esconde en asociaciones de palabras, suposiciones por defecto y en quién queda representado.

En profundidad

El sesgo en sistemas de IA proviene de múltiples fuentes, y los datos de entrenamiento son solo la más obvia. Sí, si tu corpus sobrerepresenta ciertos demográficos o puntos de vista, el modelo reflejará eso. Pero el sesgo también entra a través del etiquetado (los humanos que califican los ejemplos de entrenamiento traen sus propias suposiciones), a través de la evaluación (benchmarks que prueban fluidez en inglés pero no en yoruba), a través del contexto de despliegue (un filtrador de currículums entrenado con datos históricamente sesgados de contratación de una empresa), e incluso a través de la función de pérdida misma (optimizar para engagement puede amplificar contenido sensacionalista o divisivo). Entender estos vectores distintos importa porque cada uno requiere una estrategia de mitigación diferente.

Midiendo lo oculto

Los enfoques técnicos para medir y reducir el sesgo han madurado considerablemente. Las pruebas de embedding de palabras como WEAT (Word Embedding Association Test) mostraron ya en 2017 que los embeddings de word2vec y GloVe asociaban "masculino" con "carrera" y "femenino" con "familia" de maneras que reflejaban la Prueba de Asociación Implícita de la psicología. Para LLM modernos, la evaluación es más difícil. Los investigadores usan benchmarks como BBQ (Bias Benchmark for QA), WinoBias y RealToxicityPrompts para sondear estereotipos, pero estos solo capturan los sesgos que alguien pensó en probar. El red teaming y la evaluación adversarial llenan algunas brechas, pero la cola larga de posibles sesgos es efectivamente infinita.

La trampa de la sobrecorrección

Las técnicas de eliminación de sesgo vienen con compensaciones reales que los profesionales necesitan entender. Las intervenciones a nivel de datos — rebalancear, aumentar grupos subrepresentados, filtrar contenido tóxico — pueden ayudar pero también arriesgan borrar contexto cultural legítimo o crear distribuciones artificialmente sanitizadas. Las intervenciones a nivel de modelo como aprendizaje contrastivo o DPO en pares de preferencias específicos de sesgo pueden reducir los estereotipos pero a veces sobrecorrigen, produciendo salidas que son incómodamente evasivas o que se niegan a reconocer diferencias estadísticas reales cuando son relevantes (un modelo médico debería saber que la prevalencia de anemia falciforme varía por ascendencia). La controversia de generación de imágenes de Gemini de Google a principios de 2024 — generando soldados nazis étnicamente diversos — fue un ejemplo vívido de sobrecorrección salida mal. El objetivo no es hacer que los modelos pretendan que las diferencias no existen; es evitar que hagan suposiciones injustas sobre individuos basadas en la pertenencia a un grupo.

Más allá del inglés

Una de las formas más importantes y menos discutidas de sesgo es el sesgo de idioma y cultura. La mayoría de los modelos de frontera se entrenan predominantemente con texto en inglés, con suposiciones culturales occidentales incorporadas. Pregúntale a un modelo sobre estructuras familiares "normales", etiqueta profesional o incluso qué constituye una conversación "educada", y obtendrás respuestas que se inclinan hacia lo estadounidense o europeo occidental. Esto afecta a miles de millones de hablantes no anglófonos que interactúan con estos sistemas. Los modelos multilingües como BLOOM y Aya han avanzado, pero la brecha de rendimiento entre el inglés y los idiomas con menos recursos sigue siendo sustancial, y no se trata solo de fluidez — se trata de si el modelo entiende el contexto cultural en esos idiomas.

Gestionar, no eliminar

Para desarrolladores que construyen sobre estos modelos, la realidad práctica es que el sesgo es algo que gestionas, no algo que eliminas. Eliges criterios de evaluación relevantes para tu caso de uso específico, mides contra ellos y tomas decisiones deliberadas sobre compensaciones aceptables. Un asistente de escritura creativa y una herramienta de contratación tienen perfiles de sesgo muy diferentes y riesgos muy diferentes. El peor enfoque es asumir que el modelo base "ya fue eliminado de sesgo" y saltarse la evaluación por completo — cada contexto de despliegue introduce nuevas oportunidades para que el sesgo cause daño, y lo responsable es probarlo antes de que tus usuarios lo encuentren por ti.

Conceptos relacionados

← Todos los términos
← Benchmark Black Forest Labs →
ESC