Word2Vec (Mikolov et al., 2013, Google) entrena prediciendo una palabra a partir de su contexto (CBOW) o prediciendo el contexto a partir de una palabra (Skip-gram). GloVe (Pennington et al., 2014, Stanford) factoriza la matriz de co-ocurrencia de palabras. Ambos producen resultados similares: vectores de 100–300 dimensiones donde la similitud del coseno se correlaciona con la similitud semántica. Estos vectores capturan relaciones notables: países mapean a capitales, verbos mapean a tiempos verbales y las analogías se resuelven mediante aritmética vectorial.
Word2Vec y GloVe producen un vector por palabra, independientemente del contexto. "Banco" obtiene el mismo embedding ya sea que signifique "banco del río" o "banco financiero". Los embeddings contextuales (ELMo, luego BERT) resolvieron esto produciendo diferentes representaciones según el contexto. Los embeddings modernos de oraciones (de modelos como BGE, E5) van más allá, incrustando oraciones completas en vectores. Cada generación mejoró sobre la anterior, pero la idea central — significado como vector — comenzó con Word2Vec.
La mayor contribución de Word2Vec no fue el algoritmo sino la demostración de que las redes neuronales pueden aprender representaciones útiles del lenguaje a partir de texto crudo. Esta prueba de concepto inspiró la progresión de vectores de palabras a vectores de oraciones, a embeddings contextuales, a modelos de lenguaje completos. La capa de embedding de cada LLM es un descendiente directo de los word embeddings: una tabla de búsqueda que mapea tokens discretos a vectores continuos aprendidos, solo que a una escala mucho mayor.