Microsoft presenta el chip de inferencia Maia 200 para reducir los costos de servicio de IA – Campus Technology

Microsoft presenta el chip de inferencia Maia 200 para reducir los costos de servicio de IA

Microsoft presentó recientemente Maia 200, un acelerador personalizado destinado a reducir el costo de ejecutar cargas de trabajo de inteligencia artificial a escala de la nube, mientras los principales proveedores buscan frenar los crecientes gastos de inferencia y disminuir la dependencia de los procesadores gráficos Nvidia.

El chip está diseñado específicamente para la inferencia, la fase en la que los modelos entrenados producen texto, imágenes y otros resultados. A medida que los servicios de IA pasan de ser pilotos a utilizarse en producción cotidiana, el costo de generar tokens se ha convertido en una parte cada vez más importante del gasto total. Microsoft dijo que Maia 200 está destinado a abordar esos aspectos económicos a través de computación de menor precisión, memoria de gran ancho de banda y redes optimizadas para grandes grupos de IA.





«Hoy, estamos orgullosos de presentar Maia 200, un innovador acelerador de inferencia diseñado para mejorar drásticamente la economía de la generación de tokens de IA», escribió Scott Guthrie, vicepresidente ejecutivo de Nube e IA de Microsoft, en una publicación de blog anunciando el chip.

Maia 200 se basa en el proceso de 3 nanómetros de TSMC y está diseñado en torno a matemáticas de menor precisión utilizadas en cargas de trabajo de inferencia modernas. Microsoft dijo que cada chip contiene más de 140 mil millones de transistores y ofrece más de 10 petaFLOPS con precisión de 4 bits (FP4) y más de 5 petaFLOPS con precisión de 8 bits (FP8), dentro de una envolvente térmica de 750 vatios. El chip incluye 216 gigabytes de memoria HBM3e con 7 terabytes por segundo de ancho de banda, 272 megabytes de SRAM en el chip y motores de movimiento de datos para reducir los cuellos de botella que pueden limitar el rendimiento en el mundo real incluso cuando la computación sin procesar es alta.

«Lo más importante es que los FLOPS no son el único ingrediente para una IA más rápida», escribió Guthrie. «La alimentación de datos es igualmente importante».

El lanzamiento se produce cuando Microsoft, Google y Amazon invierten mucho en silicio personalizado junto con las GPU de Nvidia. La familia TPU de Google y los chips Trainium de Amazon ofrecen alternativas dentro de sus servicios en la nube, y Microsoft ha señalado desde hace tiempo que quiere un mayor control sobre los costos y la capacidad de su infraestructura de inteligencia artificial. Maia 200 sigue a Maia 100, presentado en 2023, y la compañía está posicionando el nuevo chip como un caballo de batalla centrado en la inferencia para sus productos de inteligencia artificial.

Microsoft dijo que Maia 200 admitirá múltiples modelos, incluidos «los últimos modelos GPT-5.2 de OpenAI», y se utilizará para ofrecer una ventaja de rendimiento por dólar a Microsoft Foundry y Microsoft 365 Copilot. La compañía también dijo que su equipo de Superinteligencia de Microsoft planea utilizar Maia 200 para la generación de datos sintéticos y el aprendizaje reforzado a medida que desarrolla modelos internos. Guthrie escribió que, para las canalizaciones de datos sintéticos, el diseño de Maia 200 puede acelerar la generación y el filtrado de «datos de dominio específico de alta calidad».

El chip también es un esfuerzo por competir en rendimiento principal con rivales hiperescaladores. Guthrie escribió que Maia 200 es «el silicio propio de mayor rendimiento de cualquier hiperescalador», y agregó que ofrece «tres veces el rendimiento FP4 del Amazon Trainium de tercera generación» y «el rendimiento FP8 por encima del TPU de séptima generación de Google». Las comparaciones al estilo de Reuters a menudo dependen de puntos de referencia proporcionados por los proveedores, y Microsoft, en su publicación, no proporcionó configuraciones de prueba completas para esas afirmaciones.

We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept