Alibaba lanza Qwen3.7-Plus: agente multimodal con ventana de 1 millón de tokens a 0,40 dólares por millón

El nuevo modelo de Alibaba combina comprensión de texto, imagen y vídeo con un contexto de un millón de tokens, a un precio seis veces menor que su propio modelo de gama alta Qwen 3.7 Max. Sin embargo, por primera vez en la familia Qwen, los pesos no son abiertos.

6 de junio de 20264 min de lecturapor Junior De Leon

Alibaba lanza Qwen3.7-Plus: agente multimodal con ventana de 1 millón de tokens a 0,40 dólares por millón

Alibaba puso en disponibilidad general el 1 de junio Qwen3.7-Plus, un modelo de agente multimodal que extiende las capacidades de texto del backbone Qwen 3.7 con comprensión de imagen y vídeo, manteniendo las fortalezas en codificación y uso de herramientas de la familia. El modelo acepta texto, imágenes y vídeo como entrada y devuelve texto, y está diseñado específicamente para flujos de trabajo agénticos: lectura de pantallas, navegación por interfaces gráficas y escritura de código a partir de referencias visuales.

El dato que más llama la atención de la presentación es el precio: 0,40 dólares por millón de tokens de entrada y 1,60 dólares por millón de tokens de salida, frente a los 2,50 y 7,50 dólares respectivamente del Qwen 3.7 Max. Esto lo convierte en aproximadamente seis veces más barato en entrada, una diferencia determinante para pipelines de agentes que consumen grandes cantidades de tokens en cada iteración. La ventana de contexto alcanza el millón de tokens con un presupuesto de cadena de pensamiento interno de hasta 256.000 tokens.

En cuanto a rendimiento, Alibaba publica una puntuación de 79,0 en ScreenSpot Pro —un benchmark de grounding sobre interfaces gráficas— que supera a GPT-5.4 (67,4) y a Claude Opus 4.6 (49,5) según las tablas del propio laboratorio. Evaluadores independientes como Artificial Analysis sitúan al modelo en el puesto 53 de 164 en su Índice de Inteligencia, catalogándolo como "muy por encima de la media" pero no en la frontera absoluta.

El lanzamiento supone una ruptura significativa con la tradición de Alibaba: por primera vez, un modelo de la familia Qwen 3.7 no incluye pesos abiertos en Hugging Face y es exclusivamente API. La compañía no ha confirmado ni desmentido si publicará una variante de código abierto en el futuro. El modelo está disponible en Alibaba Cloud Model Studio bajo el endpoint qwen3.7-plus, con cobertura regional en Pekín, Singapur y Virginia (EE.UU.).

alibabaqweniamodelos de lenguajemultimodal

Junior De Leon

Editor principal de TechPulse.