DeepSeek: Definición y significado — Wiki de IA

Laboratorio chino de IA que sacudió la industria a principios de 2025 con DeepSeek-R1, un modelo de razonamiento que rivalizaba con los laboratorios de frontera a una fracción del costo de entrenamiento. Respaldado por el fondo de cobertura cuantitativo High-Flyer.

Por qué importa

DeepSeek destruyó la suposición de que la IA de frontera requería presupuestos de frontera. Su enfoque de eficiencia primero — logrando rendimiento de clase GPT-4 y clase o1 a una fracción del costo de entrenamiento — forzó a toda la industria a repensar la narrativa de que escalar es todo lo que necesitas y reenfocarse en la innovación arquitectónica. El lanzamiento open-weights de R1 bajo licencia MIT democratizó el acceso a modelos de razonamiento de una manera que ningún laboratorio occidental había hecho. Y geopolíticamente, DeepSeek demostró que los controles de exportación por sí solos no pueden contener la capacidad de IA, una realización con implicaciones profundas para la política tecnológica, la inversión y el equilibrio global de poder en IA.

En profundidad

La historia de origen de DeepSeek es diferente a la de cualquier otro gran laboratorio de IA. La empresa fue fundada en 2023 como subsidiaria de High-Flyer Capital Management, un fondo de cobertura cuantitativo con sede en Hangzhou, China, fundado por Liang Wenfeng. High-Flyer había estado construyendo su propia infraestructura de IA para trading desde 2016 y había acumulado un clúster de GPU sustancial — según informes, alrededor de 10,000 chips NVIDIA A100 — antes de que los controles de exportación de EE.UU. en octubre de 2022 cortaran el acceso de China al hardware de IA más avanzado. Liang, que tiene títulos en ingeniería de información electrónica de la Universidad de Zhejiang, decidió pivotar esa infraestructura hacia la investigación de IA de propósito general. A diferencia de la trayectoria típica de startup de recaudar capital de riesgo y contratar investigadores celebridad, DeepSeek fue enteramente autofinanciada por High-Flyer, daba pocas entrevistas y publicaba papers que hablaban por sí mismos. El equipo era joven — mayormente reclutado de las mejores universidades chinas — y operaba con un perfil público mínimo.

Los avances técnicos

Los primeros lanzamientos de DeepSeek fueron sólidos pero no acapararon grandes titulares. DeepSeek-V1 y los modelos DeepSeek Coder mostraron competencia sin desafiar la frontera. Eso cambió dramáticamente con DeepSeek-V2 en mayo de 2024, que introdujo Multi-Head Latent Attention (MLA) — una técnica que comprimía el cache de key-value durante la inferencia, reduciendo dramáticamente los requisitos de memoria y costo. El modelo usaba una arquitectura Mixture of Experts con 236 mil millones de parámetros totales pero solo 21 mil millones activos por token, haciéndolo tanto poderoso como barato de ejecutar. DeepSeek estableció el precio de su API a aproximadamente 1/30 del costo de GPT-4, enviando un shock a través de la industria. Luego vino DeepSeek-V3 en diciembre de 2024, que el equipo afirmó fue entrenado por aproximadamente $5.5 millones en costos de cómputo — una cifra que, de ser precisa, era un orden de magnitud menos de lo que los laboratorios occidentales gastaban en modelos comparables. V3 usó entrenamiento de precisión mixta FP8, un objetivo de predicción de múltiples tokens y balanceo de carga sin pérdida auxiliar para sus capas MoE, cada una una innovación significativa en eficiencia de entrenamiento.

R1 y el shock de enero de 2025

DeepSeek-R1, lanzado el 20 de enero de 2025, fue el momento en que el mundo más amplio tomó nota. R1 era un modelo de razonamiento en el molde de o1 de OpenAI — podía "pensar" a través de problemas complejos paso a paso antes de responder — e igualaba o superaba el rendimiento de o1 en benchmarks de matemáticas, programación y ciencia. El modelo se lanzó como open weights bajo licencia MIT. El impacto fue inmediato y dramático. El 27 de enero, el día en que los mercados procesaron completamente las implicaciones, las acciones de NVIDIA cayeron casi un 17% en una sola sesión — la mayor pérdida de capitalización de mercado en un solo día en la historia de EE.UU. en ese momento — mientras los inversores recalculaban si la suposición de que el progreso de IA requería un gasto cada vez mayor en GPU aún se sostenía. El "shock de DeepSeek" se convirtió en un evento geopolítico: si un laboratorio chino podía igualar los modelos fronterizos de EE.UU. a pesar de estar cortado del hardware más reciente, ¿qué decía eso sobre la efectividad de los controles de exportación? Y si los costos de entrenamiento estaban desplomándose, ¿qué pasaba con los modelos de negocio de las empresas que venden infraestructura de IA costosa?

Cómo lo hicieron

La historia técnica detrás de la eficiencia de DeepSeek es genuinamente interesante y no se reduce a un solo truco. El equipo hizo uso agresivo de innovaciones arquitectónicas (MLA, DeepSeekMoE con expertos de grano fino), técnicas de entrenamiento (FP8 desde el inicio del pre-entrenamiento en lugar de solo inferencia, predicción de múltiples tokens, calendarios de learning rate cuidadosamente ajustados) e ingeniería de infraestructura (kernels personalizados, paralelismo de pipeline agresivo). Para R1 específicamente, usaron un enfoque novedoso de aprendizaje por refuerzo: en vez de depender de datos costosos de preferencia humana como RLHF, aplicaron Group Relative Policy Optimization (GRPO) en tareas de matemáticas y programación con respuestas verificables, dejando que el modelo descubriera patrones de razonamiento chain-of-thought en gran medida por sí solo. Un pequeño dataset de "arranque en frío" ayudó, pero la idea central fue que el razonamiento podía emerger del RL con verificación de verdad fundamental en lugar de requerir anotación humana masiva. También demostraron "destilación" — entrenando modelos más pequeños (1.5B, 7B, 8B, 14B, 32B, 70B parámetros) para imitar las cadenas de razonamiento de R1, produciendo una familia de modelos eficientes que rendían muy por encima de su categoría de tamaño.

Geopolítica, censura e incertidumbre

DeepSeek no puede entenderse fuera del contexto de la competencia tecnológica entre EE.UU. y China. Los modelos de la empresa cumplen con los requisitos de censura chinos — pregunta sobre la Plaza de Tiananmén, la independencia de Taiwán o Xi Jinping, y obtendrás una negativa o la posición oficial del gobierno chino. Este es un requisito legal para cualquier empresa de IA que opere en China, no una elección, pero limita la utilidad de los modelos para usuarios que necesitan salidas sin censura (aunque los open weights significan que otros pueden hacer fine-tuning para eliminar la censura). Los controles de exportación de EE.UU. que restringen el acceso de China a GPU avanzados son tanto un obstáculo que DeepSeek ha sorteado como, paradójicamente, un estímulo que los forzó hacia las innovaciones de eficiencia que se convirtieron en su ventaja. También hay preguntas abiertas sobre los recursos reales de cómputo de DeepSeek — algunos analistas han especulado que High-Flyer podría haber acumulado más GPU de lo que se ha reconocido públicamente antes de la prohibición de exportación, y la cifra de $5.5 millones de costo de entrenamiento de V3 ha sido cuestionada como potencialmente excluyendo costos significativos previos de investigación e infraestructura. Sin embargo, los logros de DeepSeek son reales, sus papers son detallados y reproducibles, y han cambiado fundamentalmente la conversación sobre lo que se requiere para construir IA de frontera.

DeepSeek