OpenAI o1: el modelo que piensa antes de responder y por qué cambia todo
En septiembre de 2024, OpenAI lanzó o1, un modelo que dedica tiempo a razonar internamente antes de dar una respuesta. En matemáticas avanzadas y ciencia, supera a los mejores expertos humanos.
El cambio de paradigma en los modelos de lenguaje
Desde el lanzamiento de ChatGPT en 2022, todos los grandes modelos de lenguaje funcionaban de la misma manera: recibían una pregunta y generaban una respuesta token a token, sin "pensar" antes de responder. Eran muy rápidos y muy capaces, pero cometían errores predecibles en razonamiento lógico complejo.
El 12 de septiembre de 2024, OpenAI publicó o1 (nombre en clave: "Strawberry") y cambió esa dinámica.
Cómo funciona o1: el razonamiento como proceso
o1 no responde inmediatamente. Antes de generar su respuesta visible, dedica tiempo a un proceso de razonamiento interno — una "cadena de pensamiento" que el usuario puede ver en resumen pero no en detalle completo. En este proceso, el modelo puede:
- Dividir el problema en subproblemas más simples
- Intentar diferentes enfoques y evaluar cuál funciona
- Verificar su propio trabajo antes de presentar la respuesta
- Reconocer errores en sus propios razonamientos intermedios
Este proceso de razonamiento extendido se consigue mediante aprendizaje por refuerzo: el modelo fue entrenado con señales de recompensa que premiaban llegar a respuestas correctas, no solo respuestas plausibles. Aprendió, por así decirlo, a pensar.
Los benchmarks que sorprendieron al sector
Los resultados en evaluaciones académicas fueron impactantes:
Matemáticas de competición:
- En el AIME 2024 (Examen de Invitación a la Olimpiada Matemática Americana), o1 resolvió el 83% de los problemas de media. Los candidatos humanos resuelven alrededor del 13% para clasificarse.
- En AMC 2024, alcanzó el percentil 89 entre los participantes humanos.
- En GPQA Diamond, un benchmark de preguntas a nivel de doctorado en física, química y biología, o1 alcanzó el 78% de respuestas correctas. Los expertos humanos con doctorado en esas áreas obtienen alrededor del 70%.
- En Codeforces (plataforma de programación competitiva), o1 alcanzó el percentil 89 entre los competidores humanos.
Las limitaciones importantes
El rendimiento tiene un costo: velocidad. o1 tarda significativamente más en responder que GPT-4o porque dedica tiempo al razonamiento. Para preguntas simples o conversación casual, esta espera no está justificada.
En el lanzamiento, o1 también carecía de capacidades que GPT-4o ya tenía: no podía navegar por internet, no tenía herramientas integradas, no procesaba imágenes. Era un modelo especializado en razonamiento, no un asistente generalista.
OpenAI lanzó o1 en dos versiones: o1-preview (más capaz) y o1-mini (más rápido y económico, optimizado para código).
Para qué sirve realmente o1
o1 brilla en tareas donde el razonamiento paso a paso importa:
Para escritura, resúmenes, traducción o consultas generales, GPT-4o o Claude 3.5 Sonnet siguen siendo mejores opciones — son más rápidos y más naturales en lenguaje.
El impacto en la industria
o1 demostró que "escalar más datos y más parámetros" no es el único camino para mejorar los modelos. El razonamiento extendido abre una nueva dimensión: se puede mejorar el rendimiento dando más tiempo al modelo para pensar, no solo haciéndolo más grande.
Esto desencadenó una carrera en la industria. DeepSeek lanzó R1 en enero de 2025 usando una técnica similar de refuerzo para el razonamiento. Google actualizó Gemini con capacidades de razonamiento. Anthropic incorporó razonamiento extendido en Claude 3.7 Sonnet.
La idea central de o1 — que los modelos de IA pueden mejorar radicalmente si aprenden a razonar antes de responder — se convirtió en una de las direcciones más prometedoras del campo.
Acceso y precio
o1 está disponible para suscriptores de ChatGPT Plus (20 dólares/mes) con límites de uso. Vía API, el precio es significativamente más alto que GPT-4o debido al mayor costo computacional del razonamiento extendido. o1-mini tiene un precio más accesible y es la opción recomendada para la mayoría de casos de uso de código.
Junior De Leon
Editor principal de TechPulse.
Comentarios
Sé el primero en comentar.