Google acaba de bloquear 749 millones de URL para el archivo de Anna

Anna’s Archive, un popular sitio web para piratear libros y artículos, parece estar en el punto de mira de Google, según la publicación de derechos digitales y de derechos de autor TorrentFreak. Se dice que el gigante de las búsquedas ha bloqueado alrededor de 749 millones de URL de Anna’s Archive para que no aparezcan en los resultados de búsqueda, según descubrió TorrentFreak, después de revisar un informe de transparencia reciente.

La eliminación no fue necesariamente selectiva, ya que Google elimina periódicamente contenido a petición de los titulares de los derechos de autor. Al momento de escribir este artículo, ha eliminado enlaces a 15.125.359.564 páginas desde 2011. Pero esta es la última de una saga en curso impulsada por la IA en la que los titulares de derechos de autor toman medidas enérgicas contra las llamadas «bibliotecas en la sombra», y ya representa alrededor del 5% de las eliminaciones totales de Google.

Anna’s Archive es una plataforma para libros electrónicos pirateados

Personalmente, no había oído hablar de Anna’s Archive, lo cual tiene sentido: es un actor más nuevo en este campo. La plataforma apareció en 2022, poco después de que el Departamento de Justicia de EE. UU. confiscara sus dominios a su predecesora, Z-Library. Desde entonces, ha estado operando silenciosamente en su pequeño rincón de Internet, sirviendo como un motor de búsqueda de código abierto para obras literarias que enlaza con fuentes gratuitas disponibles públicamente cuando existen, y cargas pirateadas cuando no existen. Al igual que Z-Library, ha sido bloqueada por ISP alemanes y demandada en EE.UU., pero sigue operativa.

Puedes considerarlo como Pirate Bay, pero para obras literarias, pero a mayor escala (impresionante dado lo nuevo que es). TorrentFreak señala que sólo 4,2 millones de URL de Pirate Bay han sido eliminadas de Google, lo cual es insignificante en comparación con las cifras de Anna’s Archive.

El scraping de IA podría ser un factor

Esa discrepancia podría deberse a una presentación de eliminación más agresiva por parte de editores y autores, ya que más de 1.000 usuarios distintos han emitido solicitudes de eliminación hasta la fecha, según los datos de Google. Estos incluyen tanto individuos como nombres más importantes como Penguin Random House, y su diligencia podría estar relacionada con la postura de Anna’s Archives sobre la IA, ya que el sitio ha admitido que ha proporcionado acceso gratuito a 30 desarrolladores de LLM para capacitarse en su «archivo ilegal de libros», y todavía alberga abiertamente páginas de libre acceso para que otros puedan acceder.

Adónde irán los titulares de derechos de autor y los lectores a partir de ahora aún está en el aire. Es importante señalar que, a pesar de que parezca lo contrario, Google no es propietario de Internet. Eliminar un sitio de su motor de búsqueda no impide que los usuarios lo visiten directamente, y los tres dominios de Anna’s Archive (annas-archive.org, annas-archive.se y annas-archive.li) permanecen activos.

Además, Anna’s Archive no aloja ningún contenido pirateado, sino que simplemente proporciona a los usuarios enlaces donde pueden encontrarlo. Todo esto lo coloca en un área legal gris, que, cuando está respaldada por la naturaleza de código abierto del sitio y su fuerte compromiso con el ideal de que «preservar y alojar estos archivos es moralmente correcto», significa que es probable que continúe de una forma u otra durante años.

Aún así, como se descubre que empresas como Meta han utilizado contenido pirateado para entrenar sus modelos de IA, es probable que las acciones de Google se vuelvan más comunes, y otros sitios, o incluso entidades legales, puedan seguir su ejemplo. Planifique en consecuencia. (Y si, como yo, te has estado preguntando «¿Quién diablos es Anna?», las preguntas frecuentes del archivo tienen una respuesta: «Tú eres Anna». Es un guiño a los usuarios anónimos que le proporcionan gran parte de su material).

Anna’s Archive es una plataforma para libros electrónicos pirateados

El scraping de IA podría ser un factor

Comparte esto: