SenseTime, un chino La empresa de inteligencia artificial más conocida por su tecnología de reconocimiento facial lanzó el martes un nuevo modelo de código abierto que, según afirma, puede generar e interpretar imágenes mucho más rápido que los mejores modelos desarrollados por competidores estadounidenses. SenseNova U1 podría ayudar a la empresa a recuperar el terreno perdido después de perder su lugar entre los principales actores en la carrera de desarrollo de la IA en China.
El ingrediente secreto del modelo es su capacidad de «leer» imágenes sin traducirlas primero a texto, lo que acelera el proceso y reduce la cantidad de potencia informática necesaria. «Todo el proceso de razonamiento del modelo ya no se limita al texto. También puede razonar con imágenes», dijo Dahua Lin, cofundador y científico jefe de SenseTime, en una entrevista con WIRED.
Lin, que también es profesor de ingeniería de la información en la Universidad China de Hong Kong, afirma que los modelos capaces de procesar imágenes directamente permitirán a los robots comprender mejor el mundo físico en el futuro.
Al igual que el último modelo insignia de DeepSeek, SenseTime dice que el U1 puede funcionar con chips fabricados en China. «Varios fabricantes de chips nacionales chinos han terminado de optimizar la compatibilidad con nuestro nuevo modelo», afirma Lin. El día del lanzamiento, 10 diseñadores de chips chinos, incluidos Cambricon y Biren Technology, anunciaron que su hardware es compatible con U1.
Esa flexibilidad es importante porque los controles de exportación de Estados Unidos restringen el acceso de las empresas chinas a los chips de inteligencia artificial más avanzados del mundo, en particular los utilizados para capacitación, que en este momento son desarrollados principalmente por empresas occidentales como Nvidia. «Seguiremos impulsando la formación en más chips diferentes», afirma Lin. Pero también reconoce que SenseTime «puede que aún necesite utilizar los mejores chips para garantizar la velocidad de nuestra iteración».
SenseTime lanzó U1 de forma gratuita en Hugging Face y GitHub, otra señal de cómo las empresas chinas se están convirtiendo en algunos de los contribuyentes más activos a la IA de código abierto.
SenseTime se fundó en 2014 y se convirtió en líder mundial en visión por computadora, que se utiliza en aplicaciones como el reconocimiento facial y la conducción autónoma. Pero cuando ChatGPT y otros sistemas de inteligencia artificial impulsados por el procesamiento del lenguaje natural se convirtieron en lo más popular en la industria tecnológica, SenseTime comenzó a tener dificultades para obtener ganancias y se quedó atrás de las nuevas empresas chinas como DeepSeek y MiniMax.
SenseTime dice que espera que lanzar SenseNova-U1 públicamente para que cualquiera pueda usarlo le ayudará a ponerse al día con los jugadores de IA tanto nacionales como occidentales. Lin dice que la compañía finalmente tomó la decisión el año pasado de centrarse en el código abierto debido a los comentarios útiles que recibe de los investigadores, lo que le permite a la empresa iterar más rápido. «Hoy en día, ser de código abierto o cerrado no es el factor ganador; la velocidad de iteración sí lo es», explica Lin.
El código abierto también ayuda a SenseTime a seguir colaborando con investigadores internacionales sin la interferencia de la geopolítica. La compañía ha sido sancionada repetidamente por el gobierno de Estados Unidos en los últimos años por acusaciones de que su tecnología de reconocimiento facial ayudó a alimentar los sistemas de vigilancia utilizados para monitorear y detener a uigures y otros grupos minoritarios en la región china de Xinjiang. Como resultado, las empresas estadounidenses no pueden invertir en SenseTime ni venderle ciertas tecnologías sin una licencia. (SenseTime ha negado las acusaciones).
Ver claramente
En un informe técnico adjunto, SenseTime afirma que SenseNova-U1 genera imágenes de mayor calidad que todos los demás modelos de código abierto actualmente en el mercado. Su rendimiento es comparable al de los principales modelos chinos de código cerrado, como Qwen de Alibaba y Seedream de ByteDance, pero aún está por detrás de líderes de la industria como GPT-Image-2.0, que salió hace apenas una semana.
Pero el principal punto de venta del modelo es su capacidad para generar imágenes mucho más rápido que todos esos modelos. Se basa en una estructura técnica innovadora llamada NEO-Unify que SenseTime presentó a principios de este año.
