Nuevo modelo de voz de Google DeepMind que ofrece control de acento y tono en más de 70 idiomas: Gemini 3.1 Flash TTS

La unidad de inteligencia artificial de Google, DeepMind, ha presentado su nuevo modelo de conversión de texto a voz, Gemini 3.1 Flash TTS. Según la empresa; A diferencia de los modelos robóticos anteriores, este permite a los usuarios dirigir el estilo de voz, la entrega y el ritmo de las respuestas del chatbot a través de comandos basados en texto.

Además, Gemini 3.1 Flash TTS ofrece opciones avanzadas que pueden adaptar el tono y énfasis de la voz para controlar el sonido producido por el modelo. Las opciones incluyen sorpresa entusiasta, positiva e informativa. Además, el modelo también permite a los usuarios seleccionar diferentes acentos regionales de varios idiomas nativos.

Además de estas funciones, los usuarios pueden ajustar el estilo de habla y la velocidad del modelo utilizando los controles de nivel de director del Gemini 3.1 Flash TTS que lo proporciona. Además, los usuarios pueden elegir entre plantillas de formato disponibles. Estos formatos incluyen chat de podcast, narrador de audiolibros, profesor de idiomas, asistente de voz, guía de salud, presentador de noticias y estilos de agente de apoyo. Según Google; Los usuarios podrán crear cualquier escena que deseen describiendo el entorno y dando instrucciones de diálogo específicas. Asimismo, los usuarios pueden exportar estas configuraciones como código de interfaz de programación de aplicaciones.

Gemini 3.1 Flash TTS tiene como objetivo ofrecer experiencias de conversación de voz más naturales. Según el comunicado de la empresa; El modelo puede producir experiencias de conversación de voz más naturales en más de 70 idiomas, incluidos japonés, hindi y alemán. Por cierto, tengamos en cuenta que el modelo tiene marcas de agua SynthID en todas sus salidas. De este modo, el contenido producido por Gemini 3.1 Flash TTS se puede detectar fácilmente.

El modelo ocupó el segundo lugar general en la clasificación TTS de Inteligencia Artificial con 1211 puntos, superando a muchos otros modelos populares de conversión de texto a voz. Actualmente, los desarrolladores pueden acceder a este modelo a través de la API Gemini y Google AI Studio. Las empresas pueden probar Gemini 3.1 Flash TTS a través de la plataforma Vertex AI y los usuarios a través de Google Vids.

Comparte esto: