Por la mayor parte de su historia, el NLP fue un ejercicio de ingeniería ingeniosa alrededor del hecho de que las computadoras no tienen idea de qué significan las palabras. Los primeros sistemas se basaron en representaciones de bolsa de palabras — literalmente contando cuántas veces aparece cada palabra en un documento e ignorando por completo el orden de las palabras. TF-IDF mejoró esto al ponderar más las palabras raras que las comunes, lo que hizo que la búsqueda y la recuperación de documentos fuera sorprendentemente efectiva considerando lo crudo que era el enfoque. Luego llegó word2vec en 2013 y cambió todo al aprender representaciones vectoriales densas donde las palabras con significados similares terminaban cerca entre sí en el espacio vectorial. Por primera vez, un modelo podía capturar que "rey" menos "hombre" más "mujer" aproximadamente equivale a "reina". Las redes neuronales recurrentes y las LSTM empujaron el campo aún más al procesar el texto secuencialmente, manteniendo un estado oculto que llevaba información a través de una oración. Funcionaron, pero eran lentas para entrenar, tenían dificultades con dependencias de largo alcance y cada tarea de NLP — traducción, resumen, respuesta a preguntas — necesitaba su propia arquitectura personalizada.
El artículo de 2017 "Attention Is All You Need" no solo introdujo una nueva arquitectura — colapsó todo un ecosistema de modelos especializados en un diseño general. El mecanismo de atención autoatendida del Transformer permitió al modelo ponderar la relevancia de cada palabra contra todas las demás en la entrada simultáneamente, eliminando el cuello de botella secuencial de las RNN. Lo que nadie anticipó completamente fue cuán bien esta arquitectura escalaría. Preentrenar un Transformer grande con suficiente texto le permite aprender a hacer traducción, resumen, análisis de sentimiento, generación de código y docenas de otras tareas sin haber sido entrenado explícitamente en ninguna de ellas. BERT lo demostró en el lado del entendimiento en 2018, GPT-2 lo demostró en el lado de la generación en 2019, y para 2023 el patrón era claro: una sola arquitectura, escalada con más datos y cálculo, había unificado eficazmente todo el campo del NLP.
A pesar de la dominancia de los LLM, las tareas clásicas de NLP no han desaparecido — simplemente han cambiado de contexto. El reconocimiento de entidades nombradas (extraer nombres, fechas, organizaciones del texto), el etiquetado de partes del discurso, el análisis de sentimiento y la clasificación de texto aún están presentes en todos los sistemas de producción. La pregunta es cuándo usar un modelo dedicado versus simplemente consultar un LLM. Si estás procesando millones de reseñas de clientes al día para extraer sentimiento, un clasificador BERT ajustado finamente que corre en una sola GPU será órdenes de magnitud más barato y rápido que enviar cada reseña a GPT-4. Si estás construyendo una tubería de análisis única o manejando una tarea que requiere juicio sutil, una consulta a un LLM tiene más sentido. La economía se inclina hacia modelos especializados a gran escala y LLMs para flexibilidad y volumen bajo.
Esto lleva a la pregunta de las tuberías. Los flujos de trabajo tradicionales de NLP son tuberías explícitas: tokenizar el texto, aplicar etiquetado de partes del discurso, ejecutar análisis de dependencias, extraer entidades, clasificar la intención. Herramientas como spaCy y NLTK se construyeron para este enfoque, y aún son excelentes cuando necesitas procesamiento determinista y inspeccionable a alta throughput. La alternativa — lanzar texto crudo a un LLM y pedirle que haga todo en un solo disparo — es seductoramente simple pero viene con compromisos. Los LLM son no determinísticos, caros por llamada y difíciles de depurar cuando algo sale mal. En la práctica, la mayoría de los sistemas de NLP en producción en 2026 son híbridos: tuberías estructuradas para las partes que necesitan velocidad y consistencia, llamadas a LLM para las partes que necesitan razonamiento y flexibilidad. Un sistema de soporte al cliente podría usar spaCy para extraer entidades y clasificar la intención, y luego pasar solo a un LLM para generar la respuesta real.
El NLP multilingüe ha avanzado mucho, pero la brecha entre el inglés y todo lo demás sigue siendo real. Modelos como mBERT, XLM-R y las variantes multilingües de GPT y Gemini pueden manejar docenas de idiomas, y la transferencia entre idiomas — entrenar en datos en inglés y aplicar el modelo a francés o hindi — funciona sorprendentemente bien para idiomas de alto recurso. El problema es la cola larga. Hay aproximadamente 7,000 idiomas hablados en la Tierra, y la gran mayoría tienen casi ningún texto digital para entrenar. Los tokenizadores entrenados principalmente en inglés cortan idiomas como tailandés, khmer o inuktitut en secuencias de token absurdamente largas, lo que degrada tanto el rendimiento como el costo. Incluso para idiomas de recurso medio como vietnamita o swahili, la calidad del modelo disminuye notablemente en comparación con el inglés. La causa raíz es los datos: los modelos de NLP aprenden del texto, y Internet es abrumadoramente en inglés. Corregir esto no es solo un desafío técnico — es una cuestión de qué idioma puede participar en la revolución de la IA y cuál se queda atrás.