IA Global

De la 'Caja Negra' a la 'Biblioteca Pirata': Cómo Anthropic erosionó los derechos de autor en la IA generativa

De la "Caja Negra" a la "Biblioteca Pirata"

1.500 millones de dólares. Es la cifra que Anthropic desembolsó en agosto de 2025 para cerrar el litigio Bartz v. Anthropic, el acuerdo por infracción de derechos de autor más cuantioso en la historia judicial de Estados Unidos. Pero la cifra real de lo que está en juego es infinitamente mayor: nada menos que la integridad legal de cómo se entrenan los sistemas de IA en la era post-ChatGPT.

Lo que comenzó como una empresa de "seguridad e investigación" que presumía de Constitucional AI terminó en los tribunales acusada de lo que sus propios demandantes denominan un "imperio construido sobre la piratería". Y los números no mienten: aproximadamente siete millones de libros descargados vía BitTorrent desde sitios ilegales como Library Genesis (LibGen) y Pirate Library Mirror (PiLiMi). Al menos 482.460 títulos certificados en la clase de demandantes. Un acto de infracción no doloso, sino deliberado, autorizado por Dario Amodei y Benjamin Mann en persona.

La paradoja que atraviesa este caso es tan profunda que debería obligar a repensar la propia arquitectura de la IA "responsable": ¿cómo puede una empresa que se autodefine como safety-first haber violado sistemáticamente el derecho de autor de millones de creadores? ¿Y qué significa que, simultáneamente, el Pentágono designe a Anthropic como "riesgo para la cadena de suministro de seguridad nacional"?

El acto de piratería como entidad jurídica autónoma

La sentencia del Juez Alsup en el caso Bartz estableció una distinción binaria que ha redibujado el litigio de IA: la bifurcación entre el entrenamiento del modelo y la adquisición ilícita de datos. Mientras que algunos tribunales han validado que el análisis transformativo de obras protegidas durante el entrenamiento puede constituir un "uso justo", Alsup fue categórico: la descarga deliberada de copias desde bibliotecas sombra es un acto de infracción directa, irremediable e independiente de cualquier uso posterior.

Esto es revolucionario porque refuta la defensa favorita de Anthropic: que el carácter innovador del output (Claude como chatbot útil y seguro) justifica el input (piratería masiva). No. El tribunal dijo que no funciona así. El "blanqueamiento" doctrinal no existe.

Lo que conviene subrayar aquí es que la utilización del protocolo BitTorrent multiplicó exponencialmente la infracción. Cada descarga de un fragmento transformaba a Anthropic simultáneamente en distribuidor para otros miembros del "enjambre" (swarm). No solo reprodujo ilícitamente millones de obras en sus servidores, sino que participó activamente en su difusión pública. Esto amplificó el daño económico de manera que los simples "números" no capturan.

La memorización como activo comercial

Aquí es donde la historia se vuelve más incómoda. Los modelos de lenguaje de gran tamaño presentan un fenómeno técnico denominado overfitting: tras ser expuestos repetidamente a un mismo contenido durante el entrenamiento, asimilan y almacenan copias casi idénticas de las obras en sus pesos y parámetros.

Pero —y esto importa mucho— Anthropic no pasó por alto este "problema técnico" como un efecto secundario molesto. Según la evidencia judicial, la empresa contrató trabajadores temporales durante el fine-tuning para que solicitaran explícitamente al modelo tareas como "reescribir textos con cambios de estilo" o "sugerir canciones basadas en música favorita". ¿El efecto? Incentivar activamente a Claude a regurgitar líricas memorizadas.

Porque, claro, la memorización es un activo comercial. La capacidad de Claude para responder con precisión a consultas sobre obras populares es un factor que atraía usuarios e inversores. El modelo que reproduce canciones de Bruno Mars y líricas de Don McLean sin licencia es un modelo más valioso que uno que dice "no puedo hacer eso".

Universal Music Group y BMG presentaron pruebas documentales donde Claude generaba copias casi exactas de composiciones icónicas. Y lo más provocador: cuando se le pedía que escribiera una canción sobre "la muerte de Buddy Holly", el modelo respondía con "American Pie", atribuyéndose la autoría como si dijera: "una canción que yo escribí". No es un hallazgo técnico casual. Es un output infractor que competía directamente con agregadores de letras autorizados que sí pagaban cánones.

La "limpieza" del dataset como ocultamiento intencional

La Sección 1202 de la Copyright Act estadounidense prohíbe la remoción o alteración deliberada de la Información de Gestión de Derechos (CMI): títulos de obras, nombres de autores, avisos de copyright. Esa información es esencial para que los creadores mantengan control sobre su propiedad intelectual.

Anthropic implementó un proceso sistemático de "limpieza" de datos. Durante el desarrollo, evaluaron herramientas como Dragnet, Newspaper y jusText. Todas ellas con un propósito específico: separar el contenido principal (las líricas, la prosa literaria) de los metadatos que identificaban la autoría. Dragnet fue seleccionada porque podía aislar el contenido expresivo de los avisos de autoría que suelen ubicarse en márgenes de sitios web licenciados.

Pero aquí es donde emerge el dolo específico. En junio de 2021, Benjamin Mann y Jared Kaplan intercambiaron mensajes internos donde descalificaban al extractor jusText porque dejaba demasiado "residuo inútil" (useless junk) — refiriéndose específicamente a los avisos de copyright "© 2019". El extractor Newspaper, que los eliminaba completamente, fue calificado como una "mejora significativa".

Esto no fue negligencia. Fue intención. El deseo deliberado de que el modelo Claude aprendiera a ignorar los avisos de propiedad intelectual. Y ello indujo no solo la infracción directa de Anthropic, sino que entrenó el sistema para que sus usuarios también cometieran actos infractores involuntarios al recibir contenido que parecía carecer de protección legal.

La paradoja de los guardrails: un reconocimiento tácito del pecado original

Tras la interposición de demandas en octubre de 2023, Anthropic implementó de manera reactiva "barreras tecnológicas" (guardrails) diseñadas para bloquear la reproducción literal de líricas protegidas. La empresa sostuvo ante los tribunales que estas medidas eran permanentes, integrales y efectivas.

Los demandantes interpretan esto de manera radicalmente distinta: como una "estrategia de litigio" oportunista. Y aquí emerge una paradoja de doctrina que socava fatalmente la posición de defensa de Anthropic.

Si Claude necesita guardrails para impedir reproducir contenido protegido, es porque fue entrenado masivamente sobre ese contenido. Si no hubiera asimilado las composiciones de Universal durante su fase de desarrollo, no requeriría filtros para evitar su reproducción. Conviene subrayar esto: la existencia misma de estas barreras es una confesión técnica de que el modelo fue construido sobre la vulneración de derechos exclusivos de reproducción.

Además —y la evidencia es concluyente— los guardrails no funcionan. Usuarios pueden utilizar técnicas de jailbreaking o re-inducción para forzar al modelo a ignorar sus restricciones. La protección es selectiva: Anthropic bloqueó solo una lista limitada de 500 composiciones de los anexos del primer litigio, dejando desprotegido el vasto universo de millones de otras canciones. El sistema sigue entregando "mashups", distorsiones y versiones casi verbatim cuando se le solicita de manera persistente.

Los demandantes lo llaman acertadamente una "curita" (band-aid), no una cura. No impide que el modelo siga poseyendo y procesando información infractora en sus capas internas. El acto de infracción se consumó cuando Anthropic reprodujo ilícitamente las obras para amasar su biblioteca de datos y codificarlas en el modelo. Los guardrails solo actúan sobre el síntoma —la respuesta visible del chatbot—, pero dejan intacta la vulneración de los derechos exclusivos que ocurre en la "caja negra" del entrenamiento.

La responsabilidad personal de los fundadores

Una nota procesalmente agresiva: los demandantes no limitaron la acción a la entidad corporativa Anthropic PBC. Extendieron la responsabilidad civil individual a sus principales directivos y fundadores: Dario Amodei (CEO) y Benjamin Mann (fundador y personal técnico).

La evidencia sugiere que ambos tuvieron participación directa. Específicamente, se acusa a Benjamin Mann de haber utilizado personalmente BitTorrent en junio de 2021 para descargar aproximadamente cinco millones de libros piratas de LibGen. Dario Amodei habría discutido y autorizado expresamente estas descargas, a pesar de haber calificado internamente a LibGen como una fuente "sospechosa" (sketchy).

El acto de piratería no fue una decisión técnica aislada. Fue una política corporativa deliberada para evitar el "tedio empresarial" de obtener licencias legales. Y esto, en términos de responsabilidad contributiva y vicaria, sitúa a los fundadores como los "motores principales" (moving forces) detrás de una operación sistemática de infracción. Porque, además, Anthropic alcanzó una valoración de mercado astronómica —entre 350.000 y 380.000 millones de dólares— fundamentada en gran medida en la capacidad de sus modelos para procesar y regurgitar contenidos que incluyen las obras protegidas. Al no haber abonado los cánones de licencia correspondientes, la empresa experimentó un enriquecimiento injusto derivado directamente de la explotación no autorizada.

Lo que viene en el informe completo

El análisis completo en PDF profundiza en aspectos que no se pueden desplegar aquí: la jurisprudencia precedente de casos como Concord Music Group I y II; el análisis técnico detallado de los extractores de contenido (Readability, Dragnet, Newspaper, jusText); la estructura del fondo de compensación de 1.500 millones y cómo se distribuyó (aproximadamente 3.000 dólares por título registrado); y, quizá lo más incómodo, las tensiones entre ética, seguridad nacional y propiedad intelectual —incluyendo la designación de Anthropic por el Pentágono como "riesgo para la cadena de suministro" en marzo de 2026, y cómo la empresa se enfrentó al gobierno estadounidense sobre cláusulas de vigilancia masiva y sistemas de armas autónomas.

También se desarrolla la paradoja central: ¿cómo puede una empresa que invoca "Constitucional AI" y derechos constitucionales para resistir presiones estatales ser, simultáneamente, acusada de construir su infraestructura tecnológica sobre torrenteo masivo de obras ilegales? ¿Puede un sistema de IA considerarse genuinamente "seguro" o "ético" si su propio proceso de creación vulneró sistemáticamente los derechos de propiedad intelectual que sustentan el ecosistema creativo?

Descarga el análisis completo del caso Bartz v. Anthropic: Una disección exhaustiva de cómo 1.500 millones de dólares no fueron suficientes para resolver la pregunta que domina el futuro de la IA: ¿es posible una inteligencia artificial genuinamente responsable si está construida sobre piratería?


Conclusiones clave

  • La bifurcación de Alsup redibuja el litigio de IA: La innovación tecnológica no "blanquea" el acto previo de piratería masiva. Son infracciones autónomas e irremediables.

  • La memorización fue deliberada, no accidental: Anthropic contrató trabajadores para incentivar activamente a Claude a regurgitar líricas memorizadas como un activo comercial valuado en miles de millones.

  • La "limpieza" de datos fue un acto de ocultamiento: La remoción sistemática de metadatos de derechos de autor no fue negligencia, sino dolo específico destinado a normalizar la piratería.

  • Los guardrails son confesión de culpabilidad: La necesidad de bloquear reproducción literal prueba que el modelo fue entrenado sobre contenido protegido. El síntoma oculta la vulneración.

  • El fin de la "ingesta gratuita": El mercado de licencias ya no es un "tedio empresarial" prescindible. Es un componente esencial de la cadena de suministro de una IA legítima. Y tiene precio: 1.500 millones de dólares es el nuevo baremo.


Equipo de redacción Derecho Artificial | Marzo 2026

Para acceder al informe técnico completo con análisis de toda la jurisprudencia, el detalle de las herramientas de extracción de contenido, la estructura del acuerdo económico y el conflicto con el Pentágono, descarga el PDF adjunto.