¿Cuál es el secreto del éxito de la compañía de inteligencia artificial basada en chino Deepseek y el modelo R1?

Compañía de inteligencia artificial con base en chino Deepseek’s OPERAI’S O1Competiendo con yo Deepseek-r1Publicó una versión clara de la última semana Agenda de inteligencia artificialen Transferimos. Incluso si recuerdas, el trabajo de Deepseek en el campo de la inteligencia artificial también condujo a las críticas de OpenAi. Echemos un vistazo más de cerca al éxito de Deepseek, quien revolucionó el campo de la inteligencia artificial.

Una mirada cercana a Deepseek

Liang wenfeng Deepseek, establecido y administrado por Liang Wenfeng, establecido por Liang Wenfeng Fondo de inversión con sede en China Quant de alto relleno se financia por. Deepseek lanzó Deepseek-V2, que ofrece un fuerte rendimiento a un precio bajo, en mayo de 2024. A partir de este momento, la compañía, especialmente en China, se ha posicionado como el catalizador de la guerra de precios. En este sentido, los propios modelos de inteligencia artificial de Deepseek para competir con otros gigantes tecnológicos como Bytedance, Tencent, Baidu y Alibaba que comenzó a reducir sus precios Digamos.

Entre los modelos publicados en el alcance de la investigación de Deepseek Deepseek LLM, Deepseek Codeer, Deepseek Math, Deepseek VL, Deepseek V2, Deepseek Codeer V2 Y Deepseek v3 está ubicado. La compañía también es el nuevo modelo de razonamiento R1 y también hizo un gran sonido. Entre los productos de la empresa Plataforma API así como Aplicación de Deepseek, Chat Deepseek Y Plataforma DeepSeek es. Según los usuarios; La función de búsqueda de Deepseek también funciona mejor que sus competidores, como OpenAi y Perplexity. Por otro lado, el vehículo solo está compitiendo con la investigación de Gemini Deep De Google.

Eficiencia en el uso de GPU

Según la información compartida, Quant de alto volar, antes de las restricciones de exportación de los Estados Unidos para educar a los modelos Más de 10 mil GPU Nvidia proporcionó. A pesar de las barreras comerciales de la institución, las formas alternativas de oferta A 50 mil gpu También se afirma que llega. Pareciendo esto, cada uno de los procesadores de poder de DeepSeek Más de 500 mil GPU Podemos decir que está detrás de los principales laboratorios de inteligencia artificial como OpenAi, Google y Anthrope. Entonces, ¿cómo se le ocurrió Deepseek con un modelo más innovador?

Para la información compartida por Jeffrey Emanuel de acuerdo a; Deepseek usó números reales de 8 bits en lugar de 32 bits dentro del alcance del entrenamiento de precisión mixta. Esto permitió a Deepseek reducir significativamente los requisitos de memoria por GPU.

El secreto del éxito de Deepseek R1

Un limitado en noviembre R1-lite previa A la compañía, que se le ocurrió el modelo, dijo que dejó OpenAi O1 en ese momento. Dado que el modelo apareció con una versión limitada, el modelo no creó el efecto esperado en primer lugar. Pero la semana pasada artículo técnico Deepseek, que ofrece la versión abierta a los usuarios, fue el centro de atención de casi todos los interesados ​​en la inteligencia artificial.

Según Deepseek, R1 realiza, así como el O1 de Openai en ciertos criterios de inteligencia artificial. Incluso AIME, MATH-500 Y Swe-Bench Verificado Deja O1 en algunos criterios.

671 mil millones de parámetros R1 se puede obtener de abrazar la cara bajo la licencia MIT. En este sentido, el modelo se puede usar comercialmente sin restricción. Los desarrolladores dieron la bienvenida a este nuevo modelo con emoción. Durante las horas que escribimos este artículo, el modelo está aproximadamente en la cara de abrazo. 149 mil descargas Te vemos alcanzar. La razón por la cual los desarrolladores muestran este interés a R1 también es Su costo por millón de token En comparación con los modelos de la serie O1 de OpenAi demasiado bajo.

Además, la compañía apareció ante investigadores de inteligencia artificial con una notable innovación. Deepseek realizó una desviación deliberada del proceso de antuning fino controlado tradicional (sft supervisado), que se usa ampliamente en la capacitación de modelos de idiomas grandes (LLM).

Aprendizaje reforzado (RL)

Podemos decir que el ajuste fino controlado (SFT) es un paso estándar para desarrollar inteligencia artificial. Los investigadores, con ajuste fino controlado, a menudo enseñan modelos a paso a paso a la razón, llamados cadena de cabeceo). Para este propósito, los investigadores entrenan modelos en grupos de datos seleccionados para la creación de una cadena de pensamiento. En este contexto, se cree que el ajuste fino controlado es necesario para mejorar las capacidades de razonamiento de los modelos. Sin embargo, en contraste con este enfoque, Deepseek se saltó por completo la etapa SFT y preferió el aprendizaje de refuerzo – RL) para entrenar el modelo.

Gracias a este paso de Deepseek, Deepseek-R1 tuvo que desarrollar capacidades de razonamiento independientes. Más importante aún, el modelo generalmente no incluía la fragilidad traída por los grupos de datos prescriptivos. Por otro lado, omitir la configuración delgada controlada trajo algunos defectos. Por esta razón, el equipo implementó un método de sintonización fina controlado limitado en las etapas finales de la creación del modelo. El resultado mostró que el aprendizaje reforzado puede proporcionar ganancias de rendimiento significativas solo. En resumen, podemos decir que el éxito de Deepseek y R1 es ofrecer alta tecnología con bajo costo.

Según la información compartida; También se afirma que Deepseek también usa varias fórmulas para estimar qué tokens se activará el modelo, y luego solo se activan los tokens para activarse. Parece esto, Deepseek necesita un 95 por ciento menos de GPU que Meta, porque la compañía entrenó solo el 5 por ciento de sus parámetros para cada token.

Estos desarrollos revelados por Deepseek son el comienzo de una nueva era para las empresas corporativas. Teniendo en cuenta la disminución de los costos y el acceso abierto, las empresas y los desarrolladores ahora pueden progresar con modelos alternativos abiertos y potentes en lugar de modelos registrados costosos como OpenAI. Este avance de Deepseek permitirá muchas compañías de inteligencia artificial, incluida la meta conocida por sus modelos abiertos, con modelos más eficientes, costosos y abiertos en términos de uso de GPU. Es posible decir que la reducción de las necesidades de GPU en el campo de la inteligencia artificial reducirá el movimiento de las compañías de chips.

Deja un comentario

We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept