DeepSeek R1: el modelo chino que sacudió a Silicon Valley y hundió las acciones de NVIDIA
En enero de 2025, una startup china lanzó un modelo de IA de código abierto que rivaliza con OpenAI o1 y que fue entrenado por una fracción del costo. El mercado perdió 600.000 millones de dólares en un día.
El día que China sacudió el mundo de la IA
El 27 de enero de 2025, los mercados financieros abrieron con caídas históricas. NVIDIA perdió un 17% de su valor en un solo día — el equivalente a 600.000 millones de dólares de capitalización de mercado borrados en horas. No había habido una caída tan grande de una empresa en un solo día en la historia de Wall Street.
¿La causa? Una aplicación china de inteligencia artificial llamada DeepSeek que había trepado al número uno del App Store de Estados Unidos durante el fin de semana.
Qué es DeepSeek R1
DeepSeek es una empresa de inteligencia artificial fundada en 2023 en Hangzhou, China, por Liang Wenfeng, cofundador del fondo de inversión cuantitativo High-Flyer. El 20 de enero de 2025, la compañía publicó DeepSeek R1: un modelo de razonamiento de código abierto que, según los benchmarks independientes, rendía de forma comparable al modelo o1 de OpenAI en matemáticas, programación y razonamiento científico.
Hasta ahí, otra noticia de IA más. Lo que convirtió el lanzamiento en un terremoto fue el detalle que acompañaba al anuncio: el costo de entrenamiento del modelo había sido de aproximadamente 5,6 millones de dólares.
Para ponerlo en contexto: entrenar GPT-4 le costó a OpenAI se estima que entre 50 y 100 millones de dólares. Meta gastó cientos de millones en su serie Llama 3. DeepSeek había alcanzado un rendimiento similar por menos del 5% del costo.
Por qué el costo importa tanto
Toda la narrativa de inversión en IA de los últimos años se basaba en un argumento simple: para tener los mejores modelos, necesitas la mayor cantidad de chips de NVIDIA, los centros de datos más grandes y el capital más inmenso. Una carrera armamentística computacional donde solo los más ricos podían competir.
DeepSeek demostró que esa narrativa tenía fisuras. Si se puede entrenar un modelo de élite con un presupuesto relativamente modesto, la ventaja competitiva de quienes tienen acceso a miles de GPUs H100 se reduce drásticamente. Y con eso, la justificación para pagar miles de dólares por cada chip de NVIDIA se debilita.
El mercado lo interpretó de inmediato: si la demanda de hardware de IA no va a crecer tan explosivamente como se esperaba, las acciones de NVIDIA y de toda la cadena de suministro de chips debían corregir.
Las innovaciones técnicas detrás del modelo
¿Cómo logró DeepSeek entrenar tan eficientemente? El equipo publicó un paper técnico detallado con varias innovaciones clave:
Arquitectura Mixture of Experts (MoE)
DeepSeek R1 tiene 671.000 millones de parámetros en total, pero en cada inferencia solo activa 37.000 millones. En lugar de usar toda la red neuronal para cada respuesta, el modelo selecciona dinámicamente los "expertos" más relevantes para cada tarea. Esto reduce drásticamente el costo computacional sin sacrificar capacidad.
Entrenamiento con refuerzo puro
Uno de los hallazgos más sorprendentes del paper es que DeepSeek R1 alcanzó capacidades de razonamiento avanzadas usando principalmente aprendizaje por refuerzo, sin las enormes cantidades de datos supervisados que usan otros modelos. El modelo aprendió a razonar "solo", encontrando estrategias como verificar su propio trabajo o dividir problemas complejos en pasos más simples.
Destilación del conocimiento
DeepSeek también publicó versiones más pequeñas del modelo (1.5B, 7B, 14B, 32B, 70B parámetros) creadas mediante destilación: usando el modelo grande como "maestro" para entrenar modelos más pequeños y eficientes. La versión de 7B parámetros supera en benchmarks a modelos de 70B de competidores.
Código abierto: la segunda bomba
Si el rendimiento y el precio eran impactantes, la decisión de publicar el modelo como código abierto fue la segunda sacudida. Los pesos del modelo están disponibles libremente en Hugging Face bajo una licencia permisiva que permite uso comercial.
Esto significa que cualquier empresa, investigador o desarrollador del mundo puede descargar, modificar y desplegar DeepSeek R1 sin pagar un solo euro. En cuestión de días, aparecieron versiones optimizadas para Mac con Apple Silicon, guías para ejecutarlo en laptops de consumidor, y miles de proyectos derivados.
La comunidad tech lo interpretó como un movimiento estratégico: si no puedes competir con OpenAI en captación de usuarios finales, al menos puedes establecer tu tecnología como el estándar de la industria abierta.
La respuesta de Silicon Valley
Las reacciones en el ecosistema tecnológico estadounidense fueron reveladoras. Marc Andreessen, el influyente inversor de Andreessen Horowitz, lo calificó de "momento Sputnik de la IA". Yann LeCun, director de IA de Meta, lo celebró como una validación de su apuesta por los modelos abiertos.
Desde la Casa Blanca, el lanzamiento de DeepSeek generó urgencia política: si China puede desarrollar IA de frontera con chips de menor gama (las restricciones de exportación de NVIDIA impedían a DeepSeek usar los chips más avanzados), las sanciones tecnológicas sobre chips podrían estar fallando en su objetivo.
OpenAI, por su parte, aceleró sus plazos de lanzamiento y publicó o3-mini semanas después.
Qué cambia para el usuario final
Más allá de los mercados y la geopolítica, DeepSeek R1 tiene implicaciones prácticas inmediatas:
La controversia sobre privacidad y datos
El éxito de DeepSeek no llegó sin cuestionamientos. Varios países y empresas restringieron el uso de la aplicación de consumidor por preocupaciones sobre la gestión de datos de usuarios y su posible transferencia a servidores en China. Italia, Australia y varios organismos gubernamentales de EEUU bloquearon su uso en dispositivos institucionales.
Es una distinción importante: los pesos del modelo abierto pueden ejecutarse de forma completamente privada; la aplicación de consumidor y la API son otro asunto.
Conclusión: el mundo de la IA ya no es el mismo
DeepSeek R1 demostró tres cosas que el sector daba por sentadas:
- La ventaja competitiva en IA se construye sobre investigación e innovación, no solo sobre escala.
Esto no significa que OpenAI o Anthropic vayan a desaparecer. Significa que la carrera es más abierta y más global de lo que parecía en diciembre de 2024. Y eso, para el ecosistema tecnológico en general, probablemente sea una buena noticia.
Junior De Leon
Editor principal de TechPulse.
Comentarios
Sé el primero en comentar.