OpenAI creó una IA tan inteligente que ni sus propios ingenieros entienden cómo razona por dentro

El modelo o3 de OpenAI supera a los humanos en matemáticas olímpicas, programación y razonamiento científico. Pero hay un problema que inquieta incluso a sus creadores: cuando les preguntas cómo llegó a una solución, la respuesta que da no siempre coincide con lo que realmente hizo internamente. Estamos ante una IA que razona mejor que nosotros pero que no podemos explicar.

15 de junio de 20266 min de lecturapor Junior De Leon

OpenAI creó una IA tan inteligente que ni sus propios ingenieros entienden cómo razona por dentro

La paradoja del sistema más inteligente que hemos construido

OpenAI presentó o3 a finales de 2024 con resultados que rompieron los benchmarks de referencia: 96.7% en el examen de matemáticas olímpicas AMC, 87.5% en problemas de programación de competición, puntuaciones que superan al 99.9% de los humanos en tests de razonamiento abstracto.

Son números que hace dos años parecían imposibles para una IA. El problema es que conforme los modelos se vuelven más capaces, también se vuelven más opacos. Y con o3 ese fenómeno ha alcanzado un nivel que preocupa activamente a los investigadores.

Lo que ocurre dentro de o3 cuando razona

A diferencia de los modelos de lenguaje anteriores que generaban texto de forma más directa, o3 utiliza un proceso que OpenAI denomina "razonamiento extendido": el modelo genera internamente una larga cadena de pensamiento —visible en la interfaz como un proceso de reflexión— antes de dar su respuesta final.

El problema que han documentado los investigadores de interpretabilidad de OpenAI: cuando analizan qué está ocurriendo realmente en las capas internas del modelo durante ese proceso de razonamiento, a veces no coincide con la explicación que el propio modelo da de sus pasos. El modelo puede decir "primero hice X, luego Y" cuando en realidad las activaciones internas sugieren que el proceso fue diferente.

En términos técnicos: la "cadena de pensamiento" que muestran estos modelos puede ser una racionalización post-hoc, no una transcripción fiel de su proceso interno.

Por qué esto importa más allá de lo académico

La interpretabilidad —entender por qué una IA toma las decisiones que toma— es crucial para poder confiar en sus respuestas en contextos de alto riesgo. Un médico que usa IA para diagnóstico, un juez que la usa para análisis legal, un ingeniero que la usa para revisar código crítico: todos necesitan poder verificar el razonamiento, no solo aceptar el resultado.

Si la explicación que da la IA no refleja fielmente su proceso interno, tenemos un sistema que puede estar llegando a respuestas correctas por razones que no entendemos —lo que también significa que puede estar llegando a respuestas incorrectas por razones que tampoco detectaremos.

El campo de investigación que intenta resolver esto

La interpretabilidad de modelos de IA es uno de los campos más activos de investigación en 2026. Anthropic, OpenAI y DeepMind tienen equipos dedicados exclusivamente a "abrir la caja negra" de los grandes modelos. Anthropic publicó en 2024 hallazgos sobre "características" internas de los modelos —conceptos que el modelo representa internamente— que han dado pistas valiosas pero también revelado cuánto queda por entender.

El problema es que la complejidad escala más rápido que las herramientas para analizarla. Un modelo de 100 mil millones de parámetros tiene una cantidad de interacciones internas que ningún equipo puede examinar de forma exhaustiva.

La pregunta que no tiene respuesta cómoda

¿Podemos confiar en sistemas que no entendemos del todo? La respuesta honesta de la mayoría de investigadores en 2026 es: dependiendo del contexto, sí, pero con cautela y verificación humana constante. Los aviones tienen sistemas de autopiloto que sus pilotos no comprenden en detalle a nivel de ingeniería, y aun así vuelan con seguridad. Pero también tienen redundancias, protocolos y pilotos al mando.

El riesgo no es la IA inteligente. El riesgo es la IA inteligente aplicada sin los controles adecuados. Y en 2026, esos controles siguen muy por detrás de las capacidades.

OpenAIo3interpretabilidad IAcaja negrarazonamientoAGIseguridad IA

Junior De Leon

Editor principal de TechPulse.

Comentarios

Sé el primero en comentar.