Microsoft anunció ayer que ha implementado un modelo de lenguaje pequeño llamado MU, que se centra en las tareas del dispositivo. 330 millones de parámetros El MU admite el agente de inteligencia artificial, que recientemente se ha agregado al menú de configuración de Windows para la automatización de tareas.
MU, Copilot+ PCS en el canal gigante de los usuarios de Windows Insider se les ofreció acceder. El MU, que se transfiere a la Unidad de Procesamiento Neural (NPU), responde con más de 100 tokens por segundo. Según la compañía; El modelo analiza las consultas del lenguaje natural y realiza llamadas a la función de configuración de Windows. Según Microsoft, seleccionar el modelo de lenguaje codificador (codificador-decoder) en lugar de la arquitectura de solvente de código también aumenta la eficiencia.
Mientras tanto, el agente de inteligencia artificial en la configuración está disponible en Windows 11 Insider Preview Build, a la que los usuarios de Windows Insider pueden acceder en el canal Dev. Por ahora, aunque solo Copilot+ PC que funcionan con Snapdragon pueden usar esta función; Microsoft dice que las PC basadas en AMD e Intel obtendrán acceso a una fecha determinada.
Proceso de educación de MU
MU fue entrenado gradualmente utilizando unidades de procesamiento gráfico A100 en Azure Machine Learning. MU, gracias al modelo de sílice Phi, se desarrolló a la luz de la información obtenida en la ejecución de modelos de lenguaje pequeños en el dispositivo. Phi Silica se desarrolló en 2024 para las computadoras portátiles Snapdragon X Series de Microsoft para Windows 11 Copilot+ PC.
Los desarrolladores de Microsoft aprendieron a dar forma al diseño de MU de una manera que se ajusta al procesador mientras trabajan con NPUS. Los desarrolladores hicieron formas de arquitectura y parámetros de modelos compatibles con el paralelismo y los límites de memoria. Del mismo modo, debe tenerse en cuenta que los desarrolladores optimizan la distribución de parámetros entre el codificador y el codificador.
El número de parámetros se redujo mediante el uso del mismo clúster para representar tokens de entrada y crear logites de salida. Por lo tanto, el rendimiento rápido se logró en NPU con memoria limitada. Por otro lado, si los usuarios hacen una pregunta que no es compatible o activada en NPU, evita estos procedimientos. Finalmente, agreguemos que los cambios de los desarrolladores de Microsoft en la arquitectura transformadora y las técnicas de reducción del modelo aumentan la eficiencia energética de NPU.
