OpenAI agrega nuevos modelos de voz a API que pueden hablar y traducir en tiempo real

La API de OpenAI obtiene nuevas funciones de inteligencia de voz. De esta forma, los desarrolladores podrán crear aplicaciones que puedan hablar con los usuarios, convertir y traducir voz en texto.

El nuevo modelo de voz de la compañía, GPT-Realtime-2, fue desarrollado para crear una simulación de voz realista que pueda chatear con los usuarios. A diferencia de GPT-Realtime-1.5, este modelo se creó con razonamiento de clase GPT-5. Según OpenAI; El razonamiento de clase GPT‑5 se ha desarrollado para satisfacer las solicitudes más complejas de los usuarios. OpenAI afirma que GPT-Realtime-2 proporciona importantes mejoras de rendimiento con respecto a GPT-Realtime-1.5 en los puntos de referencia de razonamiento de voz. Según la compañía, el modelo obtuvo una puntuación un 15,2 por ciento más alta en las pruebas de Big Bench Audio.

La ventana de contexto de GPT-Realtime-2 se ha incrementado de 32K a 128K. De esta manera, el modelo puede preservar el contexto en sesiones de audio más largas y complejas. El modelo ahora puede llamar a varios vehículos al mismo tiempo. Por ejemplo, puede informar al usuario sobre el proceso con comentarios intermedios como “Estoy revisando el calendario” o “Estoy investigando esto ahora”.

Además, la empresa también está lanzando GPT‑Realtime‑Translate. GPT‑Realtime‑Translate está diseñado para brindar servicios de traducción en tiempo real que avanzan al mismo ritmo que el usuario en la conversación. Esta función puede comprender más de 70 idiomas y ofrece soporte al hablante en 13 idiomas. GPT-Realtime-Translate no solo traduce; También produce transcripción simultánea. Por lo tanto, el usuario puede escuchar la traducción y ver el texto resultante.

Además de estos modelos, OpenAI también lanzó una nueva función de transcripción, GPT-Realtime-Whisper. GPT-Realtime-Whisper ofrece capacidades de conversión de voz a texto en vivo durante las interacciones. Todos los nuevos modelos de audio están incluidos en la API Realtime de OpenAI. En el lado de GPT-Realtime-Whisper, OpenAI afirma que el modelo ofrece transcripción de baja latencia, especialmente para notas de reuniones, subtítulos en vivo, transmisiones y procesos de atención al cliente.

Mientras que Translate y Whisper se facturan por minuto, GPT-Realtime-2 se factura en función del consumo de tokens. Se afirma que GPT-Realtime-2 cobra $32 por cada millón de tokens por tokens de entrada de audio y $64 por salida de audio.

OpenAI declaró lo siguiente en su comunicado:

Los modelos que estamos lanzando juntos trasladan el audio en tiempo real desde un formato simple de preguntas y respuestas a interfaces de voz que pueden realizar funciones como escuchar, razonar, traducir, transcribir y actuar a medida que avanza la conversación.

OpenAI afirma que sus nuevas funciones también ayudarán en una amplia gama de áreas como educación, medios, eventos y plataformas de creación de contenido. La compañía también planea evitar que sus nuevas funciones sean utilizadas indebidamente para crear formas de abuso en línea, como spam y estafas. Al explicar que ha creado medidas de protección para este propósito, OpenAI afirmó que se han colocado ciertos activadores en el sistema para detener conversaciones que violan las reglas de contenido dañino.

Comparte esto: