Arquitectura que aumenta el rendimiento del modelo desde DeepSeek: hiperconexiones restringidas por múltiples

Compartimos con usted el papel de DeepSeek en el auge de la inteligencia artificial y la robótica en China. Los investigadores de DeepSeek compartieron en un artículo que han desarrollado una tecnología llamada Hiperconexiones restringidas por múltiples (mHC). Las hiperconexiones restringidas por múltiples (mHC) pueden mejorar el rendimiento de los modelos de inteligencia artificial.

De hecho, podemos decir que DeepSeek introdujo mHC para mejorar el mecanismo de conexión residual que utilizan los modelos de lenguaje grandes para aprender nueva información. El mecanismo de conexión, inventado en 2015, se ofrece en muchos modelos de visión.

Hiperconexiones restringidas por múltiples en el principio de funcionamiento de los modelos de inteligencia artificial

Un modelo de inteligencia artificial consta de una estructura que funciona por capas. A medida que el comando del usuario se mueve a través de las capas, cada capa realiza parte del cálculo; Durante el entrenamiento, la señal de gradiente que indica el error se propaga de regreso a las capas en la dirección opuesta. Las conexiones residuales, desarrolladas en 2015 para mejorar este proceso y al mismo tiempo permitir que el gradiente progrese de manera más directa y constante entre capas, se han vuelto comunes en modelos de lenguaje grandes. Las hiperconexiones, introducidas posteriormente, trajeron nuevas dificultades técnicas, aunque intentaron eliminar algunas deficiencias. La arquitectura mHC presentada por DeepSeek esta semana elimina algunos de estos desafíos como una versión mejorada de Hyper-Connections. La innovación clave de mHC es que utiliza estructuras matemáticas llamadas variedades para permitir un transporte más estable de gradientes entre capas.

Para probar la arquitectura, la empresa 3 mil millones, 9 mil millones y 27 mil millones de parámetros Ha entrenado tres modelos de lenguaje principales. Para fines de comparación, creó tres modelos separados más utilizando Hyper-Connections en las mismas escalas de parámetros. Según los resultados compartidos por DeepSeek, los modelos que trabajan con la arquitectura mHC mostraron un mayor rendimiento en ocho pruebas comparativas de inteligencia artificial diferentes. La compañía también enfatiza que mHC es más eficiente en hardware que Hyper-Connections. Si bien las Hyper-Connections aumentan significativamente los requisitos de memoria durante el entrenamiento, las pruebas internas muestran que mHC solo en un 6,27 por ciento Muestra que crea una carga de hardware adicional.

mHC fue desarrollado por un equipo de 19 investigadores de DeepSeek. Zhenda Xie, Yixuan Wei y Huanqi Cao Los resultados empíricos confirman que mHC proporciona efectivamente una capacitación sólida a gran escala con una escalabilidad superior en comparación con la HC tradicional, señalaron los investigadores dirigidos por los investigadores. Con este nuevo método llamado Hiperconexiones restringidas por colector (mHC), DeepSeek se centra en hacer que sus modelos sean más rentables para desafiar a sus competidores estadounidenses.

Hiperconexiones restringidas por múltiples en el principio de funcionamiento de los modelos de inteligencia artificial

Comparte esto: