Word Embedding: Definición y significado — Wiki de IA

Representaciones vectoriales densas de palabras donde palabras con significados similares tienen vectores similares. Word2Vec (2013) y GloVe (2014) fueron pioneros: entrenan sobre patrones de co-ocurrencia de palabras para producir vectores donde "rey − hombre + mujer ≈ reina". Los word embeddings fueron los precursores de los embeddings contextuales modernos (BERT, sentence-transformers) y siguen siendo fundamentales para entender cómo las redes neuronales representan el lenguaje.

Por qué importa

Los word embeddings fueron el avance que hizo práctico el NLP neuronal. Antes de ellos, las palabras se representaban como vectores one-hot (sin noción de similitud). Los word embeddings demostraron que las representaciones distribuidas podían capturar significado, analogía y relaciones semánticas. Esta idea — representar símbolos discretos como vectores continuos aprendidos — es la base de todos los modelos de lenguaje modernos.

En profundidad

Word2Vec (Mikolov et al., 2013, Google) entrena prediciendo una palabra a partir de su contexto (CBOW) o prediciendo el contexto a partir de una palabra (Skip-gram). GloVe (Pennington et al., 2014, Stanford) factoriza la matriz de co-ocurrencia de palabras. Ambos producen resultados similares: vectores de 100–300 dimensiones donde la similitud del coseno se correlaciona con la similitud semántica. Estos vectores capturan relaciones notables: países mapean a capitales, verbos mapean a tiempos verbales y las analogías se resuelven mediante aritmética vectorial.

Estáticos vs. contextuales

Word2Vec y GloVe producen un vector por palabra, independientemente del contexto. "Banco" obtiene el mismo embedding ya sea que signifique "banco del río" o "banco financiero". Los embeddings contextuales (ELMo, luego BERT) resolvieron esto produciendo diferentes representaciones según el contexto. Los embeddings modernos de oraciones (de modelos como BGE, E5) van más allá, incrustando oraciones completas en vectores. Cada generación mejoró sobre la anterior, pero la idea central — significado como vector — comenzó con Word2Vec.

El legado

La mayor contribución de Word2Vec no fue el algoritmo sino la demostración de que las redes neuronales pueden aprender representaciones útiles del lenguaje a partir de texto crudo. Esta prueba de concepto inspiró la progresión de vectores de palabras a vectores de oraciones, a embeddings contextuales, a modelos de lenguaje completos. La capa de embedding de cada LLM es un descendiente directo de los word embeddings: una tabla de búsqueda que mapea tokens discretos a vectores continuos aprendidos, solo que a una escala mucho mayor.

Word Embedding

Por qué importa

En profundidad

Estáticos vs. contextuales

El legado

Conceptos relacionados