Modelo de inteligencia artificial centrado en el desarrollo de interfaces y software multilingüe desde MiniMax: M2.1

La startup de inteligencia artificial MiniMax, con sede en China, lanzó su nuevo modelo centrado en el desarrollo de software multilingüe y casos de uso basados en agentes. M2.1Anunció. M2.1, una continuación de M2, presentado a finales de octubre, tiene como objetivo producir resultados más consistentes y utilizables, especialmente en trabajos de oficina y tareas complejas del mundo real.

Según la empresa, M2.1; Ofrece un importante aumento de rendimiento respecto a la versión anterior en diferentes lenguajes de programación como Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript y JavaScript. El modelo se centra no solo en hacer que el código funcione correctamente, sino también en cumplir con instrucciones detalladas y de varios pasos. Este enfoque tiene como objetivo producir resultados más confiables en reglas comerciales complejas que se encuentran con frecuencia en la práctica.

La nueva versión ofrece una mayor comprensión del contexto y la estética en la web, el diseño de interfaces de Android e iOS, así como el desarrollo de software. MiniMax enfatiza que M2.1 va más allá de la precisión técnica y también tiene en cuenta la coherencia visual y la lógica de interacción. En este contexto, la empresa VIBE (Parámetro de referencia visual e interactivo para la ejecución) También introdujo un nuevo conjunto de medidas llamado . ONDA; Su objetivo es medir la calidad tanto visual como interactiva de las aplicaciones producidas en cinco áreas principales: web, simulación, Android, iOS y desarrollo backend.

Según los resultados compartidos, M2.1, Mientras recibió una puntuación promedio de 88,6 en VIBE; Alcanzó 91,5 puntos en el lado web y 89,7 puntos en el lado de Android. La compañía también afirma que probó el modelo en puntos de referencia integrales como MMLU-Pro, Humanity’s Last Exam y Toolathon, junto con soluciones de los principales actores de la industria.

Según los datos anunciados, el M2.1 muestra un rendimiento estable en las áreas de uso de vehículos, conocimiento del mundo real y resolución de problemas complejos. El modelo obtuvo 22 puntos en el último examen de la humanidad, que consta de preguntas multimodales y de nivel de posgrado, y alcanzó 88 puntos en el punto de referencia MMLU, que tiene una amplia cobertura temática. Estas puntuaciones muestran que el M2.1 se posiciona en una banda de rendimiento similar a la de los modelos de gama alta.

M2.1 a través de MiniMax como API es accesible. Pesos explícitos del modelo. vía HuggingFace También está previsto presentarlo. El producto basado en agentes de la empresa, MiniMax Agent, ahora se basa en M2.1

Comparte esto: