Fecha de Corte del Conocimiento: Definición y significado — Wiki de IA

La fecha después de la cual un modelo no tiene datos de entrenamiento, lo que significa que carece de conocimiento sobre eventos, descubrimientos o cambios que ocurrieron después de esa fecha. Si la fecha de corte de un modelo es abril de 2024, no sabe nada de lo que pasó en mayo de 2024 o después — nuevos productos, noticias, papers científicos o hechos actualizados.

Por qué importa

La fecha de corte del conocimiento es la fuente más común de frustración con los asistentes de IA. "¿Por qué no sabe sobre X?" Porque X ocurrió después del entrenamiento. Esta limitación impulsa la adopción de RAG (dar al modelo acceso a información actual) y el uso de herramientas (permitir al modelo buscar en la web). Entender la fecha de corte te ayuda a saber cuándo confiar en el modelo y cuándo verificar.

En profundidad

La fecha de corte existe porque los datos de entrenamiento deben recopilarse, limpiarse y procesarse antes de que comience el entrenamiento — un proceso que tarda semanas o meses. Un modelo lanzado en 2025 podría tener una fecha de corte de datos de entrenamiento de finales de 2024. La brecha entre el corte y el lanzamiento representa tiempo de procesamiento. Algunos proveedores realizan "actualizaciones de conocimiento" adicionales mediante ajuste fino con datos más recientes, pero típicamente son limitadas (noticias, lanzamientos de productos) en lugar de comprehensivas.

No Es una Pared Dura

La fecha de corte no es perfectamente limpia. Los datos de entrenamiento a menudo incluyen contenido publicado en un rango de fechas, y los scrapes web pueden incluir páginas actualizadas en distintos momentos. Un modelo podría conocer algunas cosas de después de su fecha de corte "oficial" debido a la recopilación de datos superpuesta. También podría tener lagunas de conocimiento de antes del corte si ciertas fuentes no se incluyeron. La fecha de corte es una guía aproximada, no un límite preciso.

Trabajar Alrededor de Esto

Tres enfoques abordan la limitación del corte: RAG (recuperar documentos actuales e incluirlos en el prompt), herramientas de búsqueda web (dejar que el modelo busque información actual), y actualizaciones regulares del modelo (reentrenamiento o ajuste fino con datos recientes). En la práctica, la mayoría de las aplicaciones en producción usan RAG o uso de herramientas en lugar de depender únicamente del conocimiento interno del modelo, incluso para información dentro del período de entrenamiento, porque el conocimiento paramétrico del modelo puede ser impreciso incluso para cosas que "sabe".

Fecha de Corte del Conocimiento

Por qué importa

En profundidad

No Es una Pared Dura

Trabajar Alrededor de Esto

Conceptos relacionados