Modelo de creación de imágenes de inteligencia artificial: Qwen-Image

Alibaba, que introduce el modelo de inteligencia artificial de código abierto QWEN3-coder, que recientemente se ha centrado en la codificación, ahora está aquí con el modelo de código abierto en el campo de la inteligencia artificial con Qwen-Image. Como saben, las herramientas de producción visual de inteligencia artificial tuvieron dificultades para procesar los textos correctamente. Difusión estable y Sora apoyada por GPT-4O, especialmente las compañías nos mostraron que esta dificultad podría superarse. QWen-Image también realiza un rendimiento superior en el procesamiento de textos correctamente.

Arquitectura del modelo y proceso de capacitación

El modelo tiene la última tecnología para producir textos complejos directamente en imágenes de alta calidad, incluidos los caracteres chinos de línea múltiple. Teniendo como base Transformador de difusión multimodal (MMDIT) Construido en su arquitectura, Qwen-Image es un modelo básico con un parámetro de 20 mil millones. QWEN-IMAGE utiliza el modelo de lenguaje visual QWEN2.5-VL como acondicionador para interpretar comandos de usuario complejos, especializándose en la alineación del lenguaje y los datos visuales.

Además, el modelo está entrenado utilizando el enfoque de aprendizaje curricular. La educación, que comenzó con las imágenes básicas de no texto, se llevó gradualmente al nivel de procesamiento de las complejas explicaciones del párrafo. Además, tu modelo Con mecanismo de doble codificación Podemos decir que atrae la atención. Para hacer un cambio en este contexto, el sistema funciona de dos maneras. Por un lado Qwen2.5-vlmientras elimina las características semánticas de alto nivel, por otro lado Codador automático variacional (VAE) Detalles de reestructuración de nivel inferior. Como resultado, podemos decir que QWen-Image reúne 3 módulos básicos, incluido el transformador de difusión multimodal (MMDIT), QWEN2.5-VL y codificador automático variacional (VAE).

Según el equipo de desarrolladores, Qwen-Image se posiciona como un modelo de rendimiento de alto nivel en las pruebas de referencia pública gracias a este enfoque. LongText Bench y New Chineseword Benchmark, como evaluaciones orientadas a texto, la imagen QWEN se destaca como un fuerte competidor de código abierto contra los principales sistemas registrados. Algunos de los usuarios que prueban el modelo dicen que el texto de Qwen-Image y la armonía de la línea de comandos no son significativamente mejores que MidJourney.

QWEN-IMAGE, para el seguimiento de las solicitudes de comando y para la consistencia del atributo de objeto Gineval y DPGPara razonamiento y precisión compositiva Oneig-Bench y Tiifprocesamiento de texto, especialmente en contextos multilingües Cvtg-2k, chinoword y longText-bench evaluado en criterios. En casi cualquier caso, Qwen-Image, GPT Image 1, Seedream 3.0 y Flux.1 Kontext coinciden o deje estos modelos atrás.

Es posible decir que el modelo es particularmente mejor que todos los sistemas en comparación con el rendimiento del procesamiento de texto chino. Esto lo posiciona como el mejor modelo de código abierto.

¿Qué produce Qwen-Image?

Qwen-imagen, Desde escenas de Photogerçekçi hasta pinturas impresionistas, desde la estética de anime hasta diseños minimalistas Puede producir casi todo. Las capacidades de edición también son notables. El modelo realiza transferencias de estilo, objetos que se insertan o restan, e incluso complejas manipulaciones de exposición humana. QWen-Image protege con éxito detalles finos, como los hilos de cabello durante los cambios de exposición y elimina correctamente los detalles de la prenda pre-oculto.

Qwen-imagen en el campo de marketing y marca Carteles bilingües con logotipos de marca, caligrafía estilística y motivos de diseño consistentes puede producir. Dentro del alcance del diseño de la presentación, las jerarquías de títulos y el tema, que incluye imágenes, tienen en cuenta el orden Presentaciones de diapositivasEl modelo que forma el i, diagramas Y Materiales de clase que contienen textos instructivos También proporciona su creación. También es posible tener en cuenta que los usuarios pueden producir etiquetas de productos, letreros y tiendas de almacenamiento con QWen-Image. Además, poema manual, narraciones de escenario, texto de la historia enterrada Ilustraciones de estilo de anime También es posible crear.

Según el equipo de Qwen; El modelo puede realizar una comprensión de muchas imágenes con comandos de edición simples. Estas tareas incluyen detección de objetos, segmentación seminal, profundidad y bordes (astuto) síntesis de visión estimada y nueva.

La imagen QWEN, que se puede utilizar en plataformas como Huging Face, se encuentra con los usuarios bajo una licencia integral de Apache 2.0. Además, los usuarios pueden interactuar con el modelo en el sitio web de Qwen Chat. Para hacer esto, es suficiente seleccionar el modo «Creación de imagen» en los botones en el campo de entrada de línea de comando.

Arquitectura del modelo y proceso de capacitación

¿Qué produce Qwen-Image?

Comparte esto: