Reddit demanda a Perplexity por supuestamente copiar su contenido para alimentar la IA

Reddit está demandando a Perplexity y a tres “proveedores de servicios de extracción de datos” para “detener la elusión ilegal a escala industrial de la protección de datos por parte de un grupo de malos actores que no se detendrán ante nada para conseguir contenido valioso protegido por derechos de autor en Reddit”, según la denuncia.

La compañía equipara a las empresas de recolección de datos (SerpApi, Oxylabs y AWMProxy) con “aspirantes a ladrones de bancos” que “sabiendo que no pueden ingresar a la bóveda del banco, irrumpen en el camión blindado que lleva el efectivo”. Reddit alega que Perplexity es cliente de «al menos una» de las empresas de extracción de datos, y dice que «aparentemente hará cualquier cosa para obtener los datos de Reddit que necesita desesperadamente para alimentar su ‘motor de respuestas’, es decir, cualquier cosa». otro que celebrar un acuerdo con Reddit directamente, como lo han hecho algunos de sus competidores”.

Según la demanda, Reddit envió una carta de cese y desistimiento a Perplexity en mayo de 2024 «exigiendo que dejara de extraer datos de Reddit». Si bien Perplexity le dijo a Reddit en ese momento que no usaba el contenido de Reddit para entrenar modelos de IA y que respetaría el archivo robots.txt de Reddit, después de esa carta, el volumen de citas de Reddit sobre Perplexity en realidad aumentó. Reddit también creó una publicación que solo Google podía rastrear y, «en cuestión de horas», Perplexity «produjo el contenido» de esa publicación, dice la compañía.

«La única forma en que Perplexity podría haber obtenido ese contenido de Reddit y luego usarlo en su ‘motor de respuesta’ es si él y/o sus coacusados eliminaron las SERP de Google para ese contenido de Reddit y Perplexity luego incorporó rápidamente esos datos en su motor de respuesta», escribe Reddit.

«Las empresas de inteligencia artificial están atrapadas en una carrera armamentista por contenido humano de calidad, y esa presión ha impulsado una economía de ‘lavado de datos’ a escala industrial», dice Ben Lee, director legal de Reddit, en un comunicado. «Los scrapers eluden las protecciones tecnológicas para robar datos y luego venderlos a clientes ávidos de material de capacitación. Reddit es un objetivo principal porque es una de las colecciones más grandes y dinámicas de conversaciones humanas jamás creadas.

“Los demandados Oxylabs UAB, AWM Proxy y SerpAI (un raspador de datos lituano, una antigua botnet rusa y una empresa que anuncia abiertamente sus turbias tácticas de elusión) son ejemplos de libro de texto de este comportamiento ilegal”, dice Lee. «Incapaces de raspar Reddit directamente, enmascaran sus identidades, ocultan sus ubicaciones y disfrazan sus raspadores web para robar contenido de Reddit de la Búsqueda de Google. Perplexity es un cliente dispuesto de al menos uno de estos raspadores, y elige comprar datos robados en lugar de celebrar un acuerdo legal con el propio Reddit».

«Perplexity aún no ha recibido la demanda, pero siempre lucharemos vigorosamente por los derechos de los usuarios a acceder libre y justamente al conocimiento público», dice Jesse Dwyer, jefe de comunicación de Perplexity. El borde. «Nuestro enfoque sigue siendo responsable y basado en principios, ya que brindamos respuestas objetivas con IA precisa, y no toleraremos amenazas contra la apertura y el interés público».

Comparte esto: