Operai ofrece tres nuevos modelos de audio a los desarrolladores a través de API

Openai, Tres nuevos modelos de sonido GPT-4O-TRANSCRICIBLE, GPT-4O-MINI-TRANSCRISTABLE Y GPT-4O-MINI-TTSIntroducido. Estos modelos se presentan a los desarrolladores a través de la API de Openai. Por lo tanto, los desarrolladores podrán revelar sus propias aplicaciones aprovechando estos modelos. Además, modelos de modelos de usuarios individuales OPERAI.FM Se puede probar a través de.

Además, los sonidos producidos por el modelo GPT-4O-Mini-TTS se pueden personalizar desde varias configuraciones frontales a través de la solicitud de texto. Por lo tanto, es posible cambiar los acentos, cortinas, sombras y otras cualidades sonoras de los sonidos. Con esta privatización, podemos decir que será más fácil transmitir las emociones del usuario.

https://www.youtube.com/watch?v=lxb0l16sac

De hecho, los modelos se encuentran como variantes del modelo GPT-4O existente, que OpenAi se lanzó en mayo de 2024. La compañía centró este modelo básico con datos adicionales y se centró en ser perfecto en transcripción y habla. Por el momento, aún no se sabe cuándo los modelos vendrán a Chatgpt.

Los modelos GPT-4O-TRANSCTICQUE y GPT-4O-MQI-TRANSCRECTE están destinados a reemplazar el modelo de OpenAI de Whisper Open Source to Speech. Es posible decir que el modelo ofrece un mejor rendimiento en muchos criterios. En las comparaciones industriales, el modelo, que presenta tasas de error de vocabulario más bajas, funciona más alto en entornos ruidosos, diferentes acentos y velocidades del habla que varían en más de 100 idiomas. Los modelos GPT-4O-TRARANSCRITCT tienen una tasa de error del 2.46 por ciento en inglés en comparación con Whisper.

Según el personal técnico de Operai, Jeff Harris; La nueva familia del modelo GPT-4O-transcribe no fue diseñada para proporcionar «diarización» o la capacidad de etiquetar y distinguir diferentes altavoces. En cambio, los modelos están diseñados para tomar uno o más sonido como un solo canal de entrada y responder a todas las entradas con un solo sonido de salida, sin importar cuánto tiempo dure esta interacción.

GPT-4O-TRANSICTIVE 1 millón de insumos de sonido Token a Token 6.00 dólares, GPT-4O-Mini-TRARANSCITIVE 1 millón de entrada de sonido Token’o 3.00 dólares por token’o y GPT-4O-4-Mini-tts, 1 millón de texto de entrada token a 0.60 dólares por token por token 12,00 dólares por token se ofrece a su uso.

Comparte esto: