Herramienta de clonación de audio respaldada por inteligencia artificial: Fish Audio

Fish Audio es un modelo de conversión de texto a voz animado, expresivo y emocionalmente rico; Como afirman sus fundadores, produce sonidos realistas que capturan el ritmo y los matices de la forma más realista. La clonación de voz de Fish Audio puede crear una clonación casi natural con una entrada de voz de hasta 10 segundos. Mientras hace esto, se preocupa por preservar su acento, tono y hábitos de habla. Se afirma que la herramienta es producida por el equipo de código abierto detrás de So-VITS-SVC y Bert-VITS2.

Para utilizar la herramienta, simplemente vaya a fish.audio y cree una cuenta. Puede acceder a la función de texto a voz de la herramienta utilizando voces ya cargadas en el sitio o clonando una nueva voz. Los archivos de audio cargados incluyen inglés, chino, alemán, japonés, francés, español, coreano y árabe. Si lo deseas, puedes empezar a clonar tu voz subiendo tu propio archivo de audio o grabando tu voz.

Cuando proporciona entrada de voz turca a la herramienta, puede encontrar problemas como un ligero acento y la incapacidad de leer los circunflejos. Sin embargo, me gustaría enfatizar que fue una agradable sorpresa que mientras creaba un clon de voz de la herramienta a la que le proporcioné una entrada de voz poética y melancólica, el texto que le dio después estuviera en el mismo tono. Por lo tanto, puede ver en el texto que captura bien el significado de su entrada y el tono de su voz, pero al clonar la voz, no se proporciona una salida muy fluida. Sin embargo, este inconveniente desapareció cuando ofrecí comentarios en inglés. El audio lo grabé usando el texto de muestra; En tan solo 10 segundos, creó un tono, una voz y un acento muy parecido al mío. Para mayor inmediatez, puedes crear un archivo o grabación de audio de hasta 90 segundos. Los modelos de sonido del vehículo incluyen S1, V1.6 Control Beta y V1.5.

Para utilizar la función de texto a voz, después de seleccionar una voz específica, puede realizar adiciones emocionales, tonales y especiales. Estas características, que puedes agregar al texto, están diseñadas para transmitir los cambios de tono y emoción en el discurso. Sin embargo, en mis propios experimentos, no encontré cambios tan dramáticos como buscaba. Una posibilidad es que el discurso se base en cierto tono y estabilidad; Existe la posibilidad de que se deba a la versión gratuita. Sin embargo, también vale la pena señalar que otros usuarios han creado sonidos muy efectivos.

Tienes acceso a 8 mil créditos en la versión gratuita de la herramienta. En el plan Plus, obtienes 200 minutos de creación S1, 400 minutos de creación v1.5 o v1.6, 15 mil caracteres por creación, clonación de voz avanzada, derechos de uso comercial, 250 mil créditos por mes y acceso API por $ 11 por mes o $ 15 por mes, con una sola inyección de $ 132 por año.

En el plan Pro, puede obtener 27 horas de creación S1 por mes, 54 horas de creación v1.5 o v1.6, 30 mil caracteres por creación, clonación de voz avanzada, derechos de uso comercial, 2 millones de créditos mensuales y acceso API por una sola inyección de 900 dólares al año, o 75 dólares al mes por 100 dólares al mes.

Comparte esto: