Anteriormente os hemos presentado Tavus, una startup que crea vídeos personalizados con inteligencia artificial. Esta semana, Tavus presentó Phoenix-4, un modelo de renderizado humano en tiempo real. El modelo puede crear avatares de IA que tienen expresiones faciales holísticas, pueden cambiar entre emociones durante una conversación y escuchar activamente con respuestas contextuales.
Entrenado con miles de horas de conversaciones humanas reales, Phoenix-4 crea cada píxel de la cara y la cabeza desde cero en cada fotograma. El modelo procesa más de 10 estados emocionales y realiza transiciones entre ellos en tiempo real. Así, evita reacciones o expresiones inapropiadas durante las conversaciones.
La compañía describe Phoenix-4 como el primer modelo en tiempo real que genera y controla estados emocionales, comportamiento de escucha activa y movimientos faciales continuos como un único sistema unificado. Centrándose en la fluidez de las videollamadas en vivo, el modelo funciona a 40 fps a 1080p.
Phoenix-4 está construido sobre una arquitectura de difusión gaussiana híbrida entrenada con miles de horas de datos de voz humana. En esta arquitectura, un modelo de comportamiento incorporado aprende la relación entre todas las partes de la cara y la cabeza y las controla indirectamente.
Lo más destacado de Phoenix-4
Phoenix-4 crea y controla estados emocionales en tiempo real, con transiciones fluidas entre más de 10 estados emocionales, que incluyen felicidad, tristeza, ira, sorpresa, disgusto, miedo, excitación, curiosidad y satisfacción. Señalemos que puede dirigir la transmisión emocional directamente con su LLM y sus comandos. En su lugar, puede dejar que el modelo responda contextualmente por sí solo. La compañía afirma que cuando el modelo se combina con Raven-1 para la detección, las respuestas emocionales se ven influenciadas por el tono, la expresión y la intención del usuario, lo que proporciona una precisión aún mayor.
En situaciones como hablar y escuchar, Phoenix-4 puede asentir con aprobación más allá de reflejar emociones con expresiones naturales y distintas. Asimismo, puede mostrar sorpresa o preocupación ante la decepción, así como expresar curiosidad. Las situaciones de habla y escucha producidas por el modelo cambian sin interpolación, transiciones abruptas ni bucles de imágenes. En este enfoque, donde cada fotograma se renderiza por completo, los usuarios no notan la transición.
El modelo controla contextualmente el movimiento de la cabeza, las mejillas, las cejas, los labios, la frente, la mirada e incluso los guiños. Esto hace posibles tanto microexpresiones sutiles como macroexpresiones audaces, preservando al mismo tiempo la identidad del avatar. Además, cabe señalar que el modelo produce microexpresiones naturales. Estas expresiones surgen de representaciones aprendidas de grandes cantidades de datos emocionales reales, más que de situaciones programadas.
Los desarrolladores pueden utilizar el modelo a través de la plataforma Tavus, API, PAL y la biblioteca Stock Replica actualizada, que incluye más de 40 réplicas nuevas. Esta tecnología puede ser la preferida para casos de uso de atención médica, educación y ventas.
