Modelo de conversación bidireccional de NVIDIA que destaca por su experiencia realista: PersonaPlex

En las últimas semanas, NVIDIA presentó su nuevo modelo de conversación bidireccional, PersonaPlex. PersonaPlex, que podemos definir como una red neuronal abierta para inteligencia artificial del habla, ha llamado la atención recientemente al ofrecer una experiencia de habla realista. PersonaPlex puede servir a usuarios en roles como asistente, maestro y representante del cliente. Se afirma que la versión actual ofrece 16 perfiles de sonido ya preparados. Estos perfiles varían en estilo y presentación.

Según la información compartida por Nvidia, aunque los sistemas de voz tradicionales permiten personalizar la voz y el rol; Las conversaciones ofrecen una experiencia robótica, con pausas incómodas, así como interrupciones y turnos de habla antinaturales. Aunque los modelos full-duplex como Moshi hacen que escuchar y hablar en tiempo real y las conversaciones con inteligencia artificial se sientan naturales; Limitaba el rango de acción de los usuarios al encerrarlos en una única voz y rol fijos.

Con NVIDIA PersonaPlex, es posible elegir entre una variedad de voces y definir cualquier rol con comandos de texto. Manteniendo la personalidad elegida de principio a fin, PersonaPlex ofrece conversaciones naturales mientras gestiona las interrupciones y ritmos de habla únicos.

De esta manera, podrás acceder a la personalización que necesitas y asegurarte de que las conversaciones se lleven a cabo de forma natural y humana. Al escuchar y hablar al mismo tiempo, PersonaPlex también aprende comportamientos relacionados con el habla, como cuándo hacer una pausa o interrumpir. Para una interacción de baja latencia, Nvidia utiliza sistemas en cascada que utilizan modelos separados para escucha (reconocimiento automático de voz), producción de lenguaje (modelo de lenguaje) y voz (texto a voz).

El enfoque de Nvidia utiliza un modelo único que actualiza su estado interno a medida que el usuario habla y envía la respuesta inmediatamente. El modelo utiliza dos entradas, comando de voz y comando de texto, para definir el comportamiento del habla. Estas entradas se procesan juntas para crear una personalidad coherente. Vale la pena agregar que PersonaPlex se desarrolló sobre la arquitectura Moshi de 7 mil millones de parámetros de Kyutai.

Según la empresa; PersonaPlex supera a otros sistemas comerciales y de código abierto en dinámica de conversación, latencia de respuesta e interrupción y participación en tareas en funciones de asistente de preguntas y respuestas y servicio al cliente. Los pesos de código y modelo se publican bajo la licencia MIT y la licencia de modelo abierto NVIDIA. Agreguemos que el modelo básico de Moshi tiene la licencia de Kyutai bajo la licencia CC-BY-4.0.

Comparte esto: