Propiedad Intelectual IA

Clonación vocal por IA: el vacío legal que McConaughey y Swift llenan con marcas

22 de mayo de 2026•

Taylor Swift registró su voz como marca. McConaughey hizo lo mismo con «Alright alright alright». No lo hicieron por capricho: lo hicieron porque el derecho de autor no protege la voz humana frente a la inteligencia artificial generativa.

Un sistema de IA puede clonar tu voz con unos pocos segundos de audio. El resultado es indistinguible del original para el oído humano. Y el copyright, tal como está diseñado, no puede hacer nada al respecto. Porque lo que protege el derecho de autor es la grabación —el fonograma, el «contenedor»— pero no los parámetros que hacen que esa voz sea tuya: el timbre, la cadencia, la firma tonal.

Todo aquello que la doctrina empieza a llamar la «señal de persona» (personhood signal) queda completamente desprotegido.

Esto no es una preocupación abstracta. Es el núcleo del conflicto jurídico más relevante que está atravesando la industria creativa en 2026. Y la respuesta que los artistas han encontrado —registrar la voz como marca sensorial ante la USPTO— es pragmática, ingeniosa y, al mismo tiempo, insuficiente como solución sistémica.

Este artículo analiza por qué el sistema falla, qué están haciendo los afectados para compensarlo y qué debería cambiar para que la voz sea tratada como lo que realmente es: un bien inmaterial autónomo, registrable y protegible.

El problema que los juristas tardaron en ver

La brecha normativa tiene un nombre técnico en la doctrina anglosajona: vocal identity gap. Y su lógica es deceptivamente simple.

El derecho de autor protege la fijación de una interpretación sonora en un soporte tangible. Es decir, protege el fonograma: ese archivo de audio concreto que se grabó en un estudio en una fecha determinada. Lo que no protege son las propiedades biológicas y estilísticas de la voz que se usó para crearlo: la frecuencia fundamental, el timbre, los patrones de cadencia, la forma en que esa persona articula las sílabas. Esas cualidades son, jurídicamente hablando, un vacío.

La consecuencia práctica es devastadora. Si un modelo de IA se entrena con el catálogo completo de un artista y genera después una canción nueva que suena exactamente como él —sin reproducir directamente ningún fragmento de audio protegido—, no hay infracción de copyright técnico. El sistema «aprende» los parámetros de la señal de identidad y los usa para generar algo completamente nuevo (ex novo).

El resultado elude la ley con toda la elegancia de quien encontró una salida que el legislador no había previsto porque, sencillamente, no podía imaginar que existiría.

Esto no es teórico. La canción Heart on My Sleeve —que utilizaba réplicas generadas por IA de las voces de Drake y The Weeknd— demostró en 2023 que los modelos actuales pueden absorber patrones de fraseo, timbre y cadencia interpretativa para generar contenidos que el público percibe como auténticos.

Y el problema va más allá del mundo artístico: se han documentado fraudes financieros de gran escala —como el sufrido por una empresa en Hong Kong que perdió más de veinticinco millones de dólares tras una videoconferencia en la que la voz del director financiero fue generada por IA— y campañas de desinformación política mediante llamadas automatizadas que imitaban la voz del Presidente Biden en las primarias de New Hampshire.

La facilidad de acceso a estas herramientas ha democratizado el riesgo de una forma que resulta difícil de procesar. Hoy basta con unos segundos de audio para que cualquier individuo pueda ser víctima de una suplantación vocal hiperrealista.

La tecnología que rompió el paradigma de la «fijación»

Para entender la dimensión jurídica del problema, conviene detenerse un momento en lo que hace técnicamente posible este escenario.

Los sistemas actuales de clonación vocal se basan en redes generativas antagónicas (GAN, por sus siglas en inglés). Este marco arquitectónico enfrenta dos redes neuronales: el «generador», que produce muestras de voz sintéticas, y el «discriminador», cuya función es distinguir entre muestras reales y creadas artificialmente.

A través de un proceso de competencia iterativa, el generador mejora su capacidad de emular timbres, entonaciones y cadencias hasta que las réplicas resultan indistinguibles para el oído humano. Tecnologías complementarias como los Modelos Ocultos de Márkov (HMM) y WaveNet permiten además extraer patrones de habla a partir de bases de datos reducidas, lo que ha reducido drásticamente el umbral de acceso a la herramienta.

Lo jurídicamente relevante es que estos modelos no operan mediante la duplicación literal de fragmentos de audio protegidos. El sistema «aprende» los parámetros de la señal de identidad y los usa para generar algo completamente nuevo. Esto quiebra el presupuesto fundamental del paradigma de la «fijación» sobre el que se construyó el derecho de autor moderno: ya no hace falta copiar la obra para apropiarse de su esencia.

La sección 114(b) de la ley de propiedad intelectual estadounidense aclara, además, que los derechos sobre un fonograma no impiden la creación de grabaciones independientes que imiten o simulen los sonidos originales. Es decir, el propio legislador previó y permitió la imitación, cuando todavía resultaba imposible imaginar que una máquina podría hacer eso a escala industrial, en segundos y con fidelidad perfecta.

La voz antes de la IA: lo que la jurisprudencia sí protegía

No es que la voz estuviese completamente desprotegida antes de la irrupción de la IA generativa. La jurisprudencia del Noveno Circuito de los Estados Unidos había construido, desde los años ochenta, una doctrina que reconocía la voz como atributo de identidad jurídicamente protegible frente a la apropiación comercial.

El caso fundacional es Midler v. Ford Motor Co. (1988). Tras la negativa de la cantante Bette Midler a participar en una campaña publicitaria de Ford, la agencia de publicidad contrató a una corista para imitar deliberadamente su timbre y estilo interpretativo.

El Noveno Circuito dictaminó que, aunque la voz no es una obra fija protegida por el copyright, la imitación deliberada de una voz profesional y distintiva para vender un producto constituye un agravio civil bajo el common law de California. La resolución fue revolucionaria al razonar que la voz de un individuo es un atributo personal tan identificativo como el rostro.

Cuatro años después, en Waits v. Frito-Lay, Inc. (1992), el tribunal reforzó esta doctrina al abordar la imitación de la voz «rasposa» y el estilo interpretativo de Tom Waits. A diferencia del caso Midler, donde se utilizó una canción previamente popularizada por la artista, aquí se empleó una composición original que simplemente emulaba su estilo.

La sentencia no solo ratificó la protección de la voz frente a la apropiación de identidad, sino que validó una reclamación por falso respaldo (false endorsement) bajo la sección 43(a) de la Lanham Act: el público puede ser inducido a error sobre la asociación comercial del artista con un producto.

Estos precedentes son sólidos. El problema es que presuponen un actor humano que, deliberadamente, imita a otro actor humano. La IA generativa hace exactamente lo mismo, pero sin actor, sin intención discernible y a una escala que hace inviable la persecución caso a caso bajo el esquema del right of publicity estatal.

Dos artistas, una misma intuición estratégica

Ante la lentitud de las reformas legislativas, algunos artistas han encontrado una respuesta pragmática en el derecho de marcas. Y aquí es donde los casos McConaughey y Swift resultan doctrinalmente reveladores, no tanto por lo que protegen, sino por lo que revelan sobre el vacío que intentan llenar.

Matthew McConaughey, a través de su empresa J.K. Livin Brands, Inc., obtuvo en 2025 el registro ante la USPTO de su icónica frase «ALRIGHT ALRIGHT ALRIGHT» como marca sensorial (sensory mark). El registro trata la frase —combinada con la entonación y cadencia específicas del actor— como un indicador de origen comercial vinculado a servicios de entretenimiento y contenido audiovisual.

Al registrar su rúbrica auditiva como marca, McConaughey establece un vínculo formal entre su entrega vocal y un origen comercial único, lo que permite accionar no solo por la suplantación de su persona sino por la infracción de un signo distintivo registrado. Esto proporciona una base federal sólida para impugnar usos de IA que generen riesgo de confusión o dilución en el mercado.

Taylor Swift fue un paso más lejos. En abril de 2026, su entidad gestora, TAS Rights Management, LLC, presentó solicitudes ante la USPTO para registrar marcas sonoras de su voz pronunciando frases como «Hey, it's Taylor Swift» y «Hey, it's Taylor». El objetivo declarado es blindar sus «señales de persona» —timbre, fraseo y cadencia— frente a la ingestión y síntesis por modelos de IA.

La táctica busca crear capas superpuestas de protección (marcas, derechos de imagen y copyright) que permitan interceptar contenidos sintéticos que, aunque no reproduzcan directamente un fonograma protegido, utilicen la identidad vocal de la artista para sugerir una afiliación o respaldo no autorizado.

Ahora bien, la doctrina ha señalado con acierto una tensión dogmática en este enfoque: mientras que el derecho de autor protege la creación y el right of publicity protege la identidad comercial, el derecho de marcas protege el indicador de origen. Extender el derecho de marcas para cubrir atributos de la personalidad puede generar precedentes complejos y fragmentados.

No es un sustituto de una protección integral de la identidad vocal; es un parche creativo sobre un hueco estructural.

El caso «Sky»: cuando la IA evoca sin copiar

El incidente entre Scarlett Johansson y OpenAI en mayo de 2024 ilustra una dimensión del problema que el enfoque marcario no puede resolver: la protección frente a una IA que «evoca» pero no «copia».

OpenAI lanzó una actualización de ChatGPT-4o con una voz denominada «Sky», cuya similitud con la de Johansson en la película Her fue ampliamente advertida. La empresa afirmó que la voz pertenecía a otra actriz y no fue modelada sobre la de Johansson.

Pero la intencionalidad de la evocación quedó sugerida por el acercamiento previo de Sam Altman a la actriz —rechazado por esta— y su publicación simultánea en redes sociales del título de la película durante la demostración del sistema.

El caso no llegó a los tribunales. Pero la pregunta jurídica que deja abierta es crítica: ¿puede protegerse la identidad frente a una IA que «evoca» pero no «copia» datos biométricos reales? La normativa de protección de datos requiere habitualmente el procesamiento de datos reales del afectado para activarse.

El right of publicity o los derechos de personalidad habrían ofrecido una vía más robusta, porque su fundamento no es el tratamiento de datos sino la apropiación de la identidad. Y aquí está el nudo gordiano: el valor de la voz no reside únicamente en su frecuencia acústica, sino en los atributos estilísticos y la asociación cultural que el público proyecta sobre la persona física.

Lo que se «roba» en estos casos no es un archivo de audio; es una asociación mental.

Lo que el mundo ya está haciendo: un mosaico normativo imperfecto

El panorama comparado presenta una divergencia estructural que refleja distintas concepciones de lo que es la voz: un activo económico o un atributo de la persona.

En los Estados Unidos, la protección carece de una legislación federal unificada. El right of publicity es una creación del derecho estatal, y su alcance varía significativamente entre jurisdicciones.

Tennessee promulgó en 2024 la Ensuring Likeness, Voice, and Image Security Act (Ley ELVIS), primera norma en designar explícitamente la «voz» como atributo protegido contra el uso de modelos de IA e imponer responsabilidad secundaria a plataformas que distribuyan réplicas digitales a sabiendas de su falta de autorización. Nueva York ha optado por un enfoque contractual mediante su Digital Replica Law (2025), que anula contratos de explotación que reemplacen el trabajo presencial del artista sin definir claramente el uso de la réplica digital.

A nivel federal, el debate se centra en el NO FAKES Act, reintroducido en mayo de 2026 con amplio respaldo de la industria creativa y tecnológica, que busca establecer un derecho de propiedad intelectual federal, uniforme y transferible sobre las réplicas digitales de voz e imagen.

En la Unión Europea, el Reglamento (UE) 2024/1689 sobre inteligencia artificial (AI Act) aborda el problema desde el ángulo de la transparencia: su artículo 50 exige que los sistemas de deepfake revelen explícitamente que el contenido ha sido manipulado o generado artificialmente.

Es un enfoque que protege el interés público frente a la desinformación, pero delega la protección de la integridad personal a los marcos de derechos de personalidad y protección de datos ya existentes.

Dinamarca ha ido más lejos, impulsando una iniciativa para crear un derecho de propiedad intelectual autónomo sobre la voz y la apariencia física, concebido como un derecho afín (neighbouring right) que permite que la identidad vocal sea tratada como un activo comercialmente explotable y licenciable, con derechos morales inalienables que garantizan que el titular pueda oponerse a usos degradantes incluso tras haber cedido los derechos de explotación económica.

En España, la voz encuentra una protección fragmentada a través de la Ley Orgánica 1/1982 (LODH) y el RGPD. La LODH protege la voz explícitamente solo frente a usos publicitarios o comerciales.

La integración de la voz como dato biométrico bajo la LOPDGDD ha reforzado el sistema defensivo, pero la vía de protección de datos presenta una limitación estructural: por su carácter estrictamente personal, encuentra dificultades para ser ejercida iure hereditatis tras el fallecimiento del titular.

Propuestas de lege ferenda recientes han planteado reformar la LODH para codificar el «derecho a la voz» como un derecho autónomo, desvinculándolo de la imagen física.

China, por su parte, ha construido su marco sobre la robusta estructura de derechos de personalidad del Código Civil de 2020. El art. 1023 extiende la protección del derecho a la propia imagen a la voz, exigiendo el consentimiento del titular para cualquier reproducción que permita la identificación. La jurisprudencia del Tribunal de Internet de Beijing ha establecido precedentes relevantes al priorizar la «identificabilidad» de la señal de persona sobre la exigencia de fijación, lo que permite que los artistas accionen incluso cuando la IA genera una interpretación nueva que simplemente emula su estilo.

Lo que debería cambiar: hacia un registro de huellas vocales biométricas

Los parches actuales —marcas sensoriales, right of publicity estatal, protección de datos— son respuestas adaptativas a un problema que requiere una solución estructural. La insuficiencia de los marcos jurídicos tradicionales exige una reevaluación ontológica de la voz en el derecho de propiedad intelectual.

La propuesta de lege ferenda más sólida reside en el reconocimiento de la voz como objeto autónomo de propiedad intelectual mediante un registro oficial de «huellas vocales biométricas» o «señales de persona» (personhood signals). Este modelo, inspirado en la iniciativa danesa, conceptualizaría la voz como un derecho afín (neighbouring right) al derecho de autor.

A diferencia de los derechos de la personalidad tradicionales —puramente defensivos e inalienables—, este enfoque permitiría que la voz sea tratada como un activo intangible, autónomo y comercialmente explotable. El registro no protegería una grabación específica, sino los parámetros bioacústicos y patrones de cadencia que permiten la identificación única del individuo: una «escritura» biométrica.

Para su operatividad, el sistema requiere tres elementos complementarios.

En primer lugar, un sistema de licencias estratificado. Para los profesionales de la voz, «contratos vocales de un solo uso» que prohíban explícitamente la utilización de las grabaciones para el entrenamiento de modelos de IA sin acuerdos de licencia específicos.

Para los modelos de IA de propósito general (GPAI), la transición del actual sistema de opt-out hacia un protocolo de «doble consentimiento» (double opt-in) como condición necesaria para el entrenamiento con materiales que incorporen voces identificables.

Para la explotación póstuma, un derecho de «resurrección digital» controlado —análogo a las previsiones del NO FAKES Act— que otorgue a los herederos el control sobre las réplicas digitales por un periodo determinado.

En segundo lugar, un régimen de trazabilidad técnica obligatorio. La implementación de «marcas de agua criptográficas» (cryptographic watermarking) y tecnologías de procedencia (content provenance) en los motores de síntesis vocal.

Estas marcas de agua, imperceptibles para el oído humano pero detectables algorítmicamente, permitirían verificar si una muestra de voz ha sido generada artificialmente y a qué modelo de IA pertenece, habilitando el cumplimiento de las disposiciones de responsabilidad secundaria como las establecidas en la Ley ELVIS.

En tercer lugar, una coordinación internacional bajo la OMPI. El registro debería centralizarse en oficinas nacionales de propiedad intelectual —la OEPM en España, la USPTO en los Estados Unidos— bajo estándares internacionales coordinados por la OMPI.

El modelo continental europeo exigiría además la integración de derechos morales inalienables que faculten al titular para oponerse a usos degradantes o a la alteración inconsentida de su identidad digital, incluso tras haber licenciado los derechos de explotación económica.

El dilema ontológico que el Derecho no puede eludir

Conviene cerrar donde este debate realmente comienza: no en los artículos de los reglamentos ni en los requisitos de la USPTO, sino en una pregunta que el ordenamiento jurídico no ha respondido todavía de forma explícita.

¿Es la voz humana un atributo inalienable de la persona física? ¿O es un activo reproducible, como cualquier otro bien intangible sujeto a las reglas del mercado digital?

El derecho continental europeo ha tendido a responder a la primera pregunta: la voz es una manifestación de la identidad, protegida en cuanto tal por la dignidad humana. El sistema anglosajón del right of publicity ha respondido, implícitamente, a la segunda: lo que protege es el valor de mercado que el titular ha construido sobre su identidad.

La IA generativa ha hecho que esta distinción deje de ser académica. Porque si la voz puede ser separada de la persona que la produce, replicada a coste marginal cero y explotada indefinidamente sin necesidad de que esa persona siga viva, entonces la pregunta sobre su naturaleza jurídica tiene consecuencias prácticas enormes: quién puede autorizarla, quién puede heredarla, quién puede prohibirla y, sobre todo, quién protege al individuo cuya identidad acústica ha pasado a ser —sin que él lo decidiera ni lo supiera— materia prima de un modelo de lenguaje.

Las conclusiones de este análisis apuntan en cuatro direcciones:

El paradigma de la fijación ha caducado. La tecnología GAN sintetiza interpretaciones ex novo sin copiar fonograma alguno, dejando la «señal de persona» en un vacío de protección que el copyright tradicional no puede cubrir.
Las marcas sensoriales son un parche inteligente, no una solución. McConaughey y Swift han encontrado una defensa pragmática, pero extender el derecho de marcas para cubrir atributos de la personalidad genera precedentes fragmentados que no sustituyen a una protección integral.
La divergencia global es un problema real. Tennessee tiene la Ley ELVIS, Dinamarca tiene su propuesta de derecho afín, España tiene la LODH reformada a medias. La ausencia de armonización internacional permite que los modelos de IA operen en los espacios vacíos entre jurisdicciones.
El registro de huellas vocales biométricas, complementado con trazabilidad técnica y licencias estratificadas, es la propuesta de lege ferenda más robusta disponible hoy. No es perfecta. Pero es la única que trata la voz como lo que realmente es: un bien inmaterial autónomo que merece protección independiente de cualquier grabación concreta que la contenga.

En última instancia, la decisión que los ordenamientos jurídicos deben tomar es esta: si la voz humana conservará su condición de atributo inalienable de la persona física, o si será cedida definitivamente a la lógica del mercado digital como un activo reproducible sin límite. Es, en el fondo, un dilema sobre la naturaleza de la identidad en la era de las máquinas que aprenden.

*Este artículo es el resumen y publicación en acceso abierto del trabajo académico «La voz como objeto de propiedad intelectual en la era de la IA generativa: registro, protección y desafíos ante la clonación sintética. Análisis de los casos McConaughey, Swift y Johansson», elaborado por Firma Scarpa — Derecho & Inteligencia Artificial (mayo de 2026).

El documento completo, con aparato de 153 notas al pie y bibliografía sistemática, está disponible en PDF descargable a través del enlace anterior.*

Clonación vocal por IA: el vacío legal que McConaughey y Swift llenan con marcas

Taylor Swift registró su voz como marca. McConaughey hizo lo mismo con «Alright alright alright». No lo hicieron por capricho: lo hicieron porque el derecho de autor no protege la voz humana frente a la inteligencia artificial generativa.

El problema que los juristas tardaron en ver

La tecnología que rompió el paradigma de la «fijación»

La voz antes de la IA: lo que la jurisprudencia sí protegía

Dos artistas, una misma intuición estratégica

El caso «Sky»: cuando la IA evoca sin copiar

Lo que el mundo ya está haciendo: un mosaico normativo imperfecto

Lo que debería cambiar: hacia un registro de huellas vocales biométricas

El dilema ontológico que el Derecho no puede eludir

Artículos relacionados

La deuda oculta del copyright: ¿Soportará el mercado la IPO de Anthropic?

Derecho de cita e IA generativa: el marco que ya no sirve

Dua Lipa c. Samsung: imagen, marca y derecho de publicidad en el empaquetado de televisores

Nightshade y el Derecho de Autor ante la IA Generativa: Resistencia Algorítmica y Licenciamiento Forzoso