La historia de origen de DeepSeek es diferente a la de cualquier otro gran laboratorio de IA. La empresa fue fundada en 2023 como subsidiaria de High-Flyer Capital Management, un fondo de cobertura cuantitativo con sede en Hangzhou, China, fundado por Liang Wenfeng. High-Flyer había estado construyendo su propia infraestructura de IA para trading desde 2016 y había acumulado un clúster de GPU sustancial — según informes, alrededor de 10,000 chips NVIDIA A100 — antes de que los controles de exportación de EE.UU. en octubre de 2022 cortaran el acceso de China al hardware de IA más avanzado. Liang, que tiene títulos en ingeniería de información electrónica de la Universidad de Zhejiang, decidió pivotar esa infraestructura hacia la investigación de IA de propósito general. A diferencia de la trayectoria típica de startup de recaudar capital de riesgo y contratar investigadores celebridad, DeepSeek fue enteramente autofinanciada por High-Flyer, daba pocas entrevistas y publicaba papers que hablaban por sí mismos. El equipo era joven — mayormente reclutado de las mejores universidades chinas — y operaba con un perfil público mínimo.
Los primeros lanzamientos de DeepSeek fueron sólidos pero no acapararon grandes titulares. DeepSeek-V1 y los modelos DeepSeek Coder mostraron competencia sin desafiar la frontera. Eso cambió dramáticamente con DeepSeek-V2 en mayo de 2024, que introdujo Multi-Head Latent Attention (MLA) — una técnica que comprimía el cache de key-value durante la inferencia, reduciendo dramáticamente los requisitos de memoria y costo. El modelo usaba una arquitectura Mixture of Experts con 236 mil millones de parámetros totales pero solo 21 mil millones activos por token, haciéndolo tanto poderoso como barato de ejecutar. DeepSeek estableció el precio de su API a aproximadamente 1/30 del costo de GPT-4, enviando un shock a través de la industria. Luego vino DeepSeek-V3 en diciembre de 2024, que el equipo afirmó fue entrenado por aproximadamente $5.5 millones en costos de cómputo — una cifra que, de ser precisa, era un orden de magnitud menos de lo que los laboratorios occidentales gastaban en modelos comparables. V3 usó entrenamiento de precisión mixta FP8, un objetivo de predicción de múltiples tokens y balanceo de carga sin pérdida auxiliar para sus capas MoE, cada una una innovación significativa en eficiencia de entrenamiento.
DeepSeek-R1, lanzado el 20 de enero de 2025, fue el momento en que el mundo más amplio tomó nota. R1 era un modelo de razonamiento en el molde de o1 de OpenAI — podía "pensar" a través de problemas complejos paso a paso antes de responder — e igualaba o superaba el rendimiento de o1 en benchmarks de matemáticas, programación y ciencia. El modelo se lanzó como open weights bajo licencia MIT. El impacto fue inmediato y dramático. El 27 de enero, el día en que los mercados procesaron completamente las implicaciones, las acciones de NVIDIA cayeron casi un 17% en una sola sesión — la mayor pérdida de capitalización de mercado en un solo día en la historia de EE.UU. en ese momento — mientras los inversores recalculaban si la suposición de que el progreso de IA requería un gasto cada vez mayor en GPU aún se sostenía. El "shock de DeepSeek" se convirtió en un evento geopolítico: si un laboratorio chino podía igualar los modelos fronterizos de EE.UU. a pesar de estar cortado del hardware más reciente, ¿qué decía eso sobre la efectividad de los controles de exportación? Y si los costos de entrenamiento estaban desplomándose, ¿qué pasaba con los modelos de negocio de las empresas que venden infraestructura de IA costosa?
La historia técnica detrás de la eficiencia de DeepSeek es genuinamente interesante y no se reduce a un solo truco. El equipo hizo uso agresivo de innovaciones arquitectónicas (MLA, DeepSeekMoE con expertos de grano fino), técnicas de entrenamiento (FP8 desde el inicio del pre-entrenamiento en lugar de solo inferencia, predicción de múltiples tokens, calendarios de learning rate cuidadosamente ajustados) e ingeniería de infraestructura (kernels personalizados, paralelismo de pipeline agresivo). Para R1 específicamente, usaron un enfoque novedoso de aprendizaje por refuerzo: en vez de depender de datos costosos de preferencia humana como RLHF, aplicaron Group Relative Policy Optimization (GRPO) en tareas de matemáticas y programación con respuestas verificables, dejando que el modelo descubriera patrones de razonamiento chain-of-thought en gran medida por sí solo. Un pequeño dataset de "arranque en frío" ayudó, pero la idea central fue que el razonamiento podía emerger del RL con verificación de verdad fundamental en lugar de requerir anotación humana masiva. También demostraron "destilación" — entrenando modelos más pequeños (1.5B, 7B, 8B, 14B, 32B, 70B parámetros) para imitar las cadenas de razonamiento de R1, produciendo una familia de modelos eficientes que rendían muy por encima de su categoría de tamaño.
DeepSeek no puede entenderse fuera del contexto de la competencia tecnológica entre EE.UU. y China. Los modelos de la empresa cumplen con los requisitos de censura chinos — pregunta sobre la Plaza de Tiananmén, la independencia de Taiwán o Xi Jinping, y obtendrás una negativa o la posición oficial del gobierno chino. Este es un requisito legal para cualquier empresa de IA que opere en China, no una elección, pero limita la utilidad de los modelos para usuarios que necesitan salidas sin censura (aunque los open weights significan que otros pueden hacer fine-tuning para eliminar la censura). Los controles de exportación de EE.UU. que restringen el acceso de China a GPU avanzados son tanto un obstáculo que DeepSeek ha sorteado como, paradójicamente, un estímulo que los forzó hacia las innovaciones de eficiencia que se convirtieron en su ventaja. También hay preguntas abiertas sobre los recursos reales de cómputo de DeepSeek — algunos analistas han especulado que High-Flyer podría haber acumulado más GPU de lo que se ha reconocido públicamente antes de la prohibición de exportación, y la cifra de $5.5 millones de costo de entrenamiento de V3 ha sido cuestionada como potencialmente excluyendo costos significativos previos de investigación e infraestructura. Sin embargo, los logros de DeepSeek son reales, sus papers son detallados y reproducibles, y han cambiado fundamentalmente la conversación sobre lo que se requiere para construir IA de frontera.