Talkie-1930 lanza un LLM 13B entrenado solo en inglés pre-1931 para sondear lo que los modelos era-web memorizan vs aprenden

Un pequeño equipo sin fines de lucro liderado por Nick Levine, David Duvenaud (Toronto) y Alec Radford (anteriormente arquitecto del linaje GPT en OpenAI) lanzó Talkie-1930 hoy, un modelo de lenguaje de pesos abiertos de 13B parámetros entrenado desde cero en 260 mil millones de tokens de texto inglés estrictamente pre-1931. El corpus son libros, periódicos, revistas, revistas científicas, patentes y derecho, todo de fuentes de dominio público, lo que requirió un trabajo sustancial de transcripción OCR porque el equipo encontró que la salida OCR de estante producía solo el 30% de la eficiencia de aprendizaje del texto transcrito por humanos. Dos checkpoints son públicos en HuggingFace bajo Apache 2.0: talkie-1930-13b-base para completaciones crudas y talkie-1930-13b-it ajustado por instrucciones vía optimización de preferencia directa con Claude Sonnet 4.6 como juez. El modelo necesita al menos una GPU de 28 GB para inferencia local. El trabajo tiene la estructura de un artefacto de investigación en lugar de un modelo frontera competitivo, pero el objetivo de investigación es inusualmente concreto: producir un modelo base cuyo corte de conocimiento es el 31 de diciembre de 1930, contra el cual el equipo también entrenó un «gemelo moderno» de arquitectura 13B idéntica en datos web contemporáneos, para hacer experimentos controlados sobre lo que los modelos de lenguaje actuales realmente aprenden versus memorizan.

Las partes técnicamente interesantes son la ingeniería de datos y el argumento de control-contaminación, ambos útiles para constructores incluso si no desplegarán este modelo. El pipeline de filtrado de anacronismo es su propia contribución: el equipo construyó un clasificador de anacronismo basado en n-gramas a nivel de documento para atrapar material de fecha posterior que se había deslizado a fuentes ostensiblemente pre-1931, porque una vez que un escaneo de periódico de 1950 se filtra al conjunto de entrenamiento el límite temporal está roto. El hallazgo de calidad OCR es accionable de una manera que no se ha enfatizado lo suficiente en la industria: una penalización de eficiencia del 70% por OCR barato sobre transcripción manual significa que cualquier equipo que entrena en texto histórico o escaneado y usa OCR de estante está dejando la mayoría de la señal de aprendizaje sobre la mesa. El detalle de ajuste por instrucciones también es ingenioso; la división IT fue generada enteramente de fuentes históricas para mantener el límite temporal, con un modelo moderno solo usado como juez de preferencia, lo que deja al modelo producir comportamiento de seguimiento de instrucciones sin contrabandear conocimiento factual moderno.

La implicación más amplia es que Talkie-1930 es un instrumento de benchmark utilizable para el problema de contaminación que ha sido el bochorno de la evaluación de modelos frontera desde GPT-4. Cada benchmark público se raspa, indexa y absorbe en la siguiente corrida de entrenamiento, lo que hace que la puntuación en esos benchmarks en la frontera sea cada vez más sin sentido. Un modelo cuyos datos de entrenamiento terminan en 1930 no puede haber memorizado ninguna evaluación post-1930, así que cualquier tarea que toque material después de esa fecha puede usarse para medir generalización pura. Este es el mismo truco que la gente ha intentado con conjuntos de prueba cuidadosamente reservados, pero Talkie-1930 sube la barra a «cualquier cosa en los últimos 96 años», lo que remueve una clase mucho más grande de filtración inadvertida. La comparación del «gemelo moderno» es lo que hace esto portante: la paridad en comprensión del lenguaje central cuando las preguntas anacrónicas son filtradas es el resultado que los autores están específicamente señalando, lo que sugiere que una porción significativa de lo que los modelos frontera parecen «aprender» de los datos contemporáneos es de hecho más cercano a memorización. Si ese resultado se sostiene bajo replicación independiente es la pregunta que los próximos 30 días responderán, pero el artefacto en sí es ahora público y reproducible.

Para constructores, tres cosas concretas importan. Primero, si estás corriendo evaluaciones de benchmark y quieres una línea base resistente a la contaminación, talkie-1930-13b-it es ahora el grupo control estándar en esa clase 13B. Cualquiera que publique reclamos de capacidad a esa escala debería comparar contra él. Segundo, la lección de calidad OCR se generaliza: si tu dominio involucra documentos históricos, manuales escaneados, medios de archivo o cualquier corpus no-legible-por-máquina, la brecha entre OCR barato y transcripción limpia es mucho más grande de lo que el costo por token hace obvio. El benchmark correcto no es «¿se ve legible el OCR?» sino «¿cuál es el costo de perplejidad-por-token relativo al texto limpio?», y el número de Talkie-1930 es 3.3x. Tercero, el patrón metodológico de entrenar un modelo limitado temporalmente más un gemelo moderno es replicable en otros dominios. Un equipo construyendo un modelo médico o legal podría en principio hacer lo mismo: entrenar en fuentes pre-corte curadas, retener material de evaluación post-corte y usar la brecha para separar generalización de memorización. El trabajo de Talkie-1930 es pequeño en cómputo relativo al entrenamiento frontera pero grande en infraestructura metodológica, y la metodología es lo que se va a reutilizar.

Talkie-1930 lanza un LLM 13B entrenado solo en inglés pre-1931 para sondear lo que los modelos era-web memorizan vs aprenden

Más noticias