The Atlantic creó una base de datos con capacidad de búsqueda de la música utilizada para entrenar IA

atlántico El reportero Alex Reisner descubrió recientemente cuatro conjuntos de datos de música que se utilizan para entrenar modelos de IA y los hizo totalmente accesibles para el público. Dos de los conjuntos son absolutamente enormes con 12 millones y 9 millones de pistas. Los otros dos son mucho más pequeños, pero aún representan una cantidad significativa de datos de entrenamiento con más de 100.000 canciones cada uno.

Según Reisner, los conjuntos se han descargado miles de veces y, aunque es imposible saber exactamente quién los ha utilizado, Google y Stability han confirmado que sí en artículos de investigación. Algunas de las fuentes, como el conjunto de datos Free Music Archive, se pueden transmitir de forma gratuita para uso personal, pero requieren licencia para aplicaciones comerciales.

Si bien en teoría los conjuntos de datos están disponibles gratuitamente en Internet, usarlos como datos de entrenamiento no es tan simple como descargar un archivo ZIP y alimentarlo a un modelo de IA. Como explica Reisner:

Tres de los conjuntos de datos que encontré se distribuyen como una lista de enlaces a canciones en YouTube o Spotify. Los desarrolladores de IA descargan el audio real utilizando herramientas que automatizan el trabajo, algunas de las cuales permiten a los desarrolladores evitar inicios de sesión, anuncios y mecanismos que podrían generar dinero o suscriptores para los creadores. Estas herramientas violan los términos de servicio de estas plataformas.

Comparte esto: