Probé la nueva aplicación de transcripción de IA en el dispositivo de Google para iPhone y fue sorprendentemente precisa


Google está de regreso con otro servicio de inteligencia artificial, esta vez, un programa de dictado fuera de línea que utiliza su arquitectura «Gemma». Pero en lugar de incluirlo dentro de la aplicación Gemini, o como una función Gemini, la compañía decidió implementarlo en una aplicación dedicada para iPhone, con la muy nombre pegadizo de «Google AI Edge Eloquent».

Decidí darle una oportunidad a la aplicación el día del lanzamiento, aunque la política de privacidad me hizo reflexionar. Google dice que su ubicación, contactos, identificadores, diagnósticos del dispositivo, información de contacto, contenido del usuario, datos de uso y «otros» datos pueden vincularse a usted, mientras que las compras y otros diagnósticos pueden recopilarse pero no vincularse a usted. Eso es una gran cantidad de datos, especialmente para una aplicación que anuncia que «el audio, las conversaciones confidenciales y los datos personales nunca salen de su dispositivo», y no estoy seguro de que me interese descargar la aplicación de otra manera. Pero, como dice el refrán, si un servicio es gratuito, son el producto. Me comuniqué con Google para obtener una aclaración aquí y actualizaré esta historia si recibo una respuesta.

Cómo probar la nueva aplicación de transcripción AI de Google

Una vez que descarga la aplicación, la configuración es fácil: graba una frase de ejemplo de muestra que la aplicación le indica que diga y luego elige: «Modo en el dispositivo», que está completamente fuera de línea y almacena sus conversaciones en su dispositivo en línea; o «Pulido de texto mejorado», que mantiene el audio en su dispositivo, pero usa Gemini para «pulir» su texto, lo que requiere que envíe datos a la nube (y presumiblemente es donde van todos los datos de la política de privacidad antes mencionados). Sin embargo, no necesitarás mantener Gemini activado para que la aplicación realice una edición básica de tu transcripción; por diseño, la aplicación elimina palabras de «relleno» como «um». Tenga en cuenta que la aplicación parece abrirse en el modo «Pulido de texto mejorado» de forma predeterminada; al menos, así es como funcionó por mi parte. Pero un simple toque en un interruptor en la esquina superior derecha de la pantalla principal lo cambia al «modo en el dispositivo».

Tuve algunos problemas para poner en funcionamiento la aplicación: cada vez que intentaba probarla, decía que no hablaba en absoluto. Pero después de emparejar los AirPods con mi iPhone y desvincularlos, la aplicación pareció funcionar. Para probar la aplicación, reproduje la introducción de este video de YouTube de Audio University, que está completamente basado en diálogos. Una vez que la aplicación estuvo funcionando, inmediatamente comenzó a transcribir el video, con una precisión casi perfecta, al menos al final. Observaba cómo la aplicación ingresaba palabras incorrectas, luego las retiraba y las reemplazaba a medida que las palabras siguientes proporcionaban contexto. Una vez terminada la grabación, la transcripción era casi idéntica a la transcripción del video, salvo por un par de peculiaridades: pensó erróneamente «Si esta es nuestra primera reunión» era «Esta es nuestra primera reunión» y grabó una sola oración dos veces. Pero aparte de eso, esta es una transcripción totalmente utilizable del comienzo del vídeo.

¿Qué opinas hasta ahora?

A partir de aquí, tienes varias opciones, especialmente si invitas a Géminis a ayudar. Desde el principio, puedes tocar el ícono de un lápiz sobre la transcripción para editarla manualmente, en caso de que quieras corregir algún texto que la IA «pulió» mal. Encima de esto, puede ver las «Estadísticas de uso», incluida la cantidad de palabras pronunciadas, las palabras pronunciadas por minuto y la cantidad de ediciones realizadas por la IA. Si activa Gemini, tendrá acceso a herramientas de edición de IA adicionales, incluidos «Puntos clave», «Formal», «Corto» y «Largo». Cuando esté satisfecho con la transcripción, puede tocar el botón Copiar para mover el texto al portapapeles y pegarlo en otro lugar. En la pestaña «Historial», puedes ver tus transcripciones anteriores y volver a ellas para editarlas (manualmente o con IA). En la pestaña «Diccionarios», puede agregar palabras poco conocidas que usa con frecuencia pero que es posible que la IA no detecte, lo que mejora la precisión de sus grabaciones en el futuro.

En mis breves pruebas, la aplicación funciona bien y aprecio la opción de usarla solo en el dispositivo. Definitivamente consideraría usarlo sobre las transcripciones integradas de iOS si pareciera más rápido o más preciso, especialmente porque aquí hay algunas características más sólidas, suponiendo que realmente estén en el dispositivo. hace significa mantener mis datos fuera del alcance de Google.


We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept