Reddit demandó a la empresa de inteligencia artificial Anthropic por presuntamente recolectar comentarios de s sin permiso para entrenar su chatbot Claude.
La plataforma Reddit ha demandado a la empresa de inteligencia artificial (IA) Anthropic por el supuesto 'scraping' de millones de comentarios de los s para entrenar a su chatbot Claude. En una demanda presentada ante el Tribunal Superior de California, Reddit afirma que Anthropic utilizó bots automatizados para acceder a los contenidos de Reddit a pesar de que se le había pedido que no lo hiciera, y entrenó intencionadamente con los datos personales de los s de Reddit sin solicitar nunca su consentimiento.
Anthropic dijo en un comunicado que no estaba de acuerdo con las afirmaciones de Reddit "nos defenderemos enérgicamente". "Las empresas de inteligencia artificial no deberían estar autorizadas a extraer información y contenidos de las personas sin limitaciones claras sobre cómo pueden utilizar esos datos", dijo Ben Lee, Director Jurídico de Reddit, en una declaración a Associated Press.
La demanda de Reddit es la última contra la empresa de IA. Otra demanda de importantes editores de música alega que Claude regurgita las letras de canciones protegidas por derechos de autor. Sin embargo, esta demanda se refiere al supuesto incumplimiento de las condiciones de uso de Reddit y a la competencia desleal, a diferencia de las otras demandas que alegan infracción de los derechos de autor.
Anthropic identificó subreddits con datos de IA de alta calidad
Reddit tiene acuerdos de licencia con Google, OpenAI y otras empresas que pagan por entrenar sus sistemas de IA con los comentarios públicos de los más de 100 millones de s diarios de Reddit. Esos acuerdos "nos permiten aplicar protecciones significativas para nuestros s, incluido el derecho a eliminar su contenido, las protecciones de la privacidad de los s y evitar que los s sean objeto de spam utilizando este contenido", dijo Lee.
Al igual que otras empresas de IA, Anthropic se ha basado en gran medida en sitios web como Wikipedia y Reddit, que son profundos tesoros de materiales escritos que pueden ayudar a enseñar a un asistente de IA los patrones del lenguaje humano. Un documento de 2021 del que es coautor Dario Amodei, CEO de Anthropic, citado en la demanda, muestra que los investigadores de la empresa identificaron los subreddits o foros que contenían los datos de entrenamiento de IA de mayor calidad.
Entre ellos se encontraban los subreddits sobre jardinería, historia, consejos sobre relaciones o pensamientos que la gente tiene en la ducha. Anthropic en 2023 argumentó en una carta a la Oficina de Derechos de Autor de EE.UU. que la "forma en que Claude fue entrenado califica como un uso lícito de materiales por excelencia", al hacer copias de información para realizar un análisis estadístico de un gran cuerpo de datos.