Cómo reemplazar la voz de Alexa por la tuya usando Home Assistant

Poder hacer que Alexa diga lo que quieras con Home Assistant siempre ha sido una de mis funciones favoritas. Pero rápidamente me cansé de su voz predeterminada y decidí reemplazarla con una voz irlandesa mucho más suave a través del servicio de texto a voz (TTS) en la nube de Home Assistant. Recientemente, comencé a preguntarme si podría reemplazar esa voz por una aún mejor: la mía.

Llevo un tiempo jugando con ElevenLabs

ElevenLabs es una empresa de software que ofrece una gama de herramientas de voz con IA. En esencia, se encuentra un servicio TTS que convertirá cualquier texto en un discurso con sonido natural en una amplia variedad de voces. Es posible dar señales para cambiar el tono emocional del discurso para que suene exactamente como usted desea. Los resultados pueden ser realmente impresionantes.

La web de ElevenLabs que muestra algunas de las voces disponibles para TTS.Crédito: ElevenLabs

Otra característica que ofrece ElevenLabs es la clonación de voz. Con tan solo diez segundos de audio, es posible crear su propia voz personalizada que utiliza con el motor TTS. Una vez que hayas clonado una voz, puedes hacer que diga lo que quieras simplemente escribiendo el texto que quieres decir.

También hay otras funciones útiles, incluida una herramienta que puede generar música basándose únicamente en indicaciones de texto. ElevenLabs tiene un nivel gratuito, pero con importantes limitaciones en las funciones y en la cantidad de texto que puedes convertir a voz. Pago $5 al mes por el plan Starter, que me da créditos suficientes para generar hasta una hora de discurso cada mes.

No podrás reproducir este método sin una cuenta paga de ElevenLabs. La versión gratuita de ElevenLabs no te permite clonar voces ni usar voces personalizadas para la conversión de texto a voz.

Usando mi propia voz en mi hogar inteligente

Cloné mi voz antes de usar la función Personal Voice de Apple. Desafortunadamente, no puedes usar esta voz de manera significativa. No es posible reemplazar la voz de Siri por la tuya usando Personal Voice, por ejemplo.

Sabía que podía clonar mi voz usando ElevenLabs, así que lo probé para ver si sonaba lo suficientemente bien como para usarlo. Le pedí a un chatbot de IA que me generara un guión de dos minutos que capturara diferentes tonos de voz y todos los sonidos fonéticos clave.

Hice clic en el botón «Crear o clonar una voz» en ElevenLabs, seleccioné «Clonar voz instantánea» y me grabé leyendo el guión en fragmentos de 30 segundos. Después de cada grabación, un icono indicaba si había suficiente audio para crear un buen clon. Seguí grabando hasta que el círculo verde estuvo lleno; se necesitaron seis grabaciones de 30 segundos.

Una vez que hice clic en «Siguiente», la voz se creó en sólo unos segundos. Lo probé escribiendo algo de texto y los resultados fueron buenos; sonaba notablemente parecido a mi propia voz. No era un clon perfecto; alguna palabra extraña sonaría un poco diferente de cómo la diría, pero la mayor parte del tiempo, el discurso era aterradoramente similar.

Todo lo que necesitaba era una forma para que Home Assistant generara voz usando esa voz clonada, y podría usar mi propia voz para hacer anuncios a través de mis parlantes inteligentes Echo en toda la casa.

La integración de ElevenLabs simplifica la generación de voz

Lo bueno de Home Assistant es que, sea lo que sea lo que quieras hacer, puedes estar casi seguro de que alguien más lo ha probado primero y ha creado una integración para que sea sencillo de hacer. Ese fue exactamente el caso; hay una integración de ElevenLabs que puedes usar para generar texto a voz a través de ElevenLabs usando cualquiera de tus voces guardadas; solo necesita la clave API de su cuenta y el ID de voz de la voz que desea utilizar.

Después de instalar la integración, probé la función en mi Apple HomePod mini, ya que en el pasado he tenido menos problemas al usar este dispositivo para anuncios TTS. Descubrí que podía hacer que Home Assistant dijera cualquier cosa con mi voz a través de mi HomePod mini llamando a la acción «tts.speak» con ElevenLabs como objetivo, mi HomePod como reproductor multimedia, el texto que quería escuchar como mensaje y el ID de voz de mi voz personalizada en las opciones.

Lograr que mis dispositivos Echo reproduzcan mi voz fue la parte más difícil

Ahora que podía reproducir mi voz en mi HomePod mini, estaba seguro de haberlo descifrado. Cambié el reproductor multimedia a uno de mis parlantes Echo expuestos por la integración de Alexa Media Player y lo intenté nuevamente. Desafortunadamente, en lugar de escuchar mi voz, recibí un mensaje en la voz estándar de Alexa que decía: «Tengo problemas para acceder a tu habilidad Simon Says en este momento».

Pasé mucho tiempo intentando solucionar este problema, con poco éxito. Este es un problema común con la integración de Alexa Media Player, ya que a los dispositivos Echo no les gusta el audio a menos que esté en un formato específico. Simplemente parecía que no podía hacerlo funcionar.

Crédito: Adam Davidson/How-To Geek

Luego, como ocurre con la mayoría de los problemas tecnológicos, me di cuenta de que había una solución potencialmente sencilla que debería haber probado horas antes. Cambié el reproductor multimedia de destino del expuesto por la integración de Alexa Media Player al expuesto por Music Assistant. Por alguna razón, esto funcionó perfectamente. Ahora puedo decir lo que quiera con mi propia voz a través de todos mis parlantes inteligentes. Por ejemplo, mi anuncio del día de la basura, que se activa cuando alguien entra por primera vez a la cocina un viernes por la mañana, ahora me dice qué tipo de residuos debo tirar ese día, con mi propia voz.


Usar mi propia voz para reemplazar la de Alexa fue inicialmente solo un experimento, pero funciona muy bien y hace que los anuncios parezcan mucho más personales. Puede utilizar este método para clonar potencialmente cualquier voz dentro de lo razonable, como la de otros miembros de la familia.

Debes tener en cuenta que clonar voces de otras personas sin permiso tiene implicaciones legales y éticas y podría provocar la suspensión de tu cuenta de ElevenLabs. ElevenLabs tiene los derechos de voces icónicas como Judy Garland y John Wayne, pero están destinadas a uso comercial. Sin embargo, si estás dispuesto a pagar, puedes obtener la licencia de la voz oficial de Michael Caine y convertir a Alexa en tu propio Alfred Pennyworth de las películas de Batman.

We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept