Resumen de Texto: Definición y significado — Wiki de IA

Generar automáticamente una versión más corta de un texto que preserve la información clave. El resumen extractivo selecciona y combina las oraciones existentes más importantes. El resumen abstractivo genera nuevas oraciones que capturan el significado — como lo haría un humano. Los LLMs modernos destacan en resumen abstractivo, produciendo resúmenes fluidos y precisos de documentos, artículos y conversaciones.

Por qué importa

La sobrecarga de información es el desafío definitorio de la era digital. El resumen ayuda: condensar informes largos en resúmenes accionables, generar notas de reuniones a partir de transcripciones, crear resúmenes para papers de investigación y producir versiones TL;DR de artículos extensos. Es una de las capacidades más inmediatamente útiles de los LLMs y una de las más fáciles de integrar en flujos de trabajo existentes.

En profundidad

El resumen extractivo identifica las oraciones más importantes usando técnicas como TextRank (un algoritmo basado en grafos inspirado en PageRank) o puntuación de oraciones basada en BERT. El resumen es un subconjunto de las oraciones originales, lo que garantiza precisión factual pero puede producir texto desconectado e incómodo. El resumen abstractivo usa modelos sequence-to-sequence (T5, BART o LLMs) para generar nuevo texto, produciendo resúmenes más fluidos pero arriesgando alucinaciones — agregar información que no está en el original.

Resumen con LLMs

Los LLMs han convertido el resumen en un problema casi resuelto para documentos que caben en la ventana de contexto. "Resume este artículo en 3 puntos" produce resultados sorprendentemente buenos sin ningún ajuste fino. Los desafíos restantes: resumir documentos más largos que la ventana de contexto (requiere estrategias de fragmentación), mantener la precisión factual (los LLMs a veces "mejoran" el resumen con detalles plausibles pero fabricados) y controlar la longitud de salida con precisión.

Patrones prácticos

Patrones comunes de resumen en producción: map-reduce (dividir documento largo en fragmentos, resumir cada fragmento, luego resumir los resúmenes), jerárquico (resumir secciones, luego resumir los resúmenes de secciones) y continuo (mantener un resumen en ejecución que se actualiza a medida que se agrega nuevo contenido). Para transcripciones de reuniones, el resumen atribuido por hablante ("Sarah propuso X, Pierre planteó la preocupación Y") es más útil que el resumen genérico.