Microsoft anunció tres nuevos modelos básicos

Microsoft AI puede generar texto, audio e imágenes MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 anunció el lanzamiento de tres modelos básicos de inteligencia artificial:

Según la información compartida por Microsoft, MAI-Transcribe-1, que es 2,5 veces más rápido que el servicio Azure Fast de Microsoft, convierte voz en texto en 25 idiomas diferentes. El modelo fue diseñado teniendo en cuenta condiciones desafiantes como el ruido de fondo, grabaciones de sonido de baja calidad y conversaciones superpuestas; Se afirma que ha sido probado en escenarios de la vida real como cafeterías, oficinas y conciertos. Se afirma que el modelo es adecuado para aplicaciones fuera de línea como producción de subtítulos, transcripción de podcasts, archivo de reuniones, análisis de centros de llamadas, así como tareas en línea de baja latencia como transcripción y dictado de reuniones en tiempo real. El modelo se está integrando gradualmente con Voice Mode de Copilot y Microsoft Teams.

El modelo de producción de voz MAI-Voice-1 permite a los usuarios producir 60 segundos de voz en un segundo y crear una voz especial.

El modelo de producción de vídeo MAI-Image-2 da un paso importante hacia el fotorrealismo. El modelo tiene como objetivo reducir el tiempo que los usuarios dedican al proceso de postproducción proporcionando luz natural, tonos de piel precisos y entornos realistas. Según la empresa; El modelo también muestra un sólido rendimiento en la creación de texto dentro de imágenes; produce resultados consistentes en contenidos como carteles, infografías, diapositivas y diagramas

Cabe señalar que MAI-Image-2 se lanzó por primera vez el 19 de marzo en MAI Playground, un nuevo software de prueba de modelos de lenguaje importante. Estos tres modelos ya están disponibles en Microsoft Foundry. Agreguemos también que los modelos de transcripción y sonido también están disponibles en MAI Playground.

En términos de precios, MAI-Transcribe-1 comienza desde $0,36 por hora. MAI-Voice-1 comienza en $22 por 1 millón de caracteres, mientras que MAI-Image-2 comienza en $5 por 1 millón de tokens para entrada de texto y $33 por 1 millón de tokens para salida de imágenes.

modelos, Mustafa Suleyman, director ejecutivo de IA de Microsoft Fue desarrollado por el equipo de Superinteligencia MAI de Microsoft, dirigido por Microsoft. un equipo de investigación de IA Superinteligencia AMI El equipo se fundó en noviembre de 2025. Suleyman afirmó en una entrevista que Microsoft sigue comprometido con su asociación con OpenAI a pesar de lanzar sus propios modelos. En otra declaración, Suleyman afirmó que gracias a la reciente renegociación de esta asociación, Microsoft pudo continuar esta investigación de superinteligencia.

Microsoft, que anunció el mes pasado el modelo de razonamiento eficiente en hardware Phi-4-reasoning-vision-15B, pasó a primer plano con MAI-Image-1 en octubre de 2025. La compañía presentó los modelos MAI-Voice-1 y MAI-1-preview en agosto de 2025.

Comparte esto: