La demanda de The new York Times contra OpenAI pone patas arriba a la IA generativa

La reciente demanda de The New York Times (NYT) contra OpenAI, creadora de ChatGPT, ha levantado dudas sobre el uso de contenidos protegidos por derechos de autor en el entrenamiento de la inteligencia artificial. Este caso pone en juego no sólo cuestiones de legalidad, sino también el futuro de la IA y su relación con los creadores de contenido.

Contexto y alcance de la demanda

El NYT acusa a OpenAI de utilizar sus artículos para entrenar sus modelos de lenguaje sin autorización, alegando que esto podría valer “millardos de dólares” en daños. La demanda puede tener consecuencias impredecibles porque cuestiona el método mayoritario de entrenar modelos de IA, que a menudo involucra el uso de vastas cantidades de datos disponibles en Internet, incluidos los artículos protegidos por derechos de autor, como son los de NYT.

Implicaciones económicas y logísticas

Si se establece un precedente legal que obligue a las empresas de IA a pagar por los contenidos que usan, podríamos ver una transformación en el modelo económico de la IA. Este cambio implicaría la necesidad de acuerdos de licencia o sistemas de compensación, lo que aumentaría los costos operativos para las empresas de IA y podría limitar el alcance de la innovación.

¿Cómo identificar y compensar los contenidos que se usan en el entrenamiento de las IAs?

Un aspecto crítico es cómo identificar qué contenidos se han utilizado para entrenar una IA y cómo compensar adecuadamente a los creadores. La tecnología de seguimiento y auditoría puede desempeñar un papel vital aquí, aunque la implementación de tal sistema presenta desafíos técnicos y de privacidad. The New York Times no ha propuesto específicamente un método para la identificación y compensación de contenidos, esta demanda parece estar más orientada a establecer un precedente sobre los derechos de autor en la era de la IA, en lugar de delinear un mecanismo concreto para la identificación y compensación.

Futuro de la IA y derechos de autor

Si el NYT gana la demanda, podría sentar un precedente legal que obligue a las empresas de IA a ser más cautelosas con el uso de contenidos protegidos. Esto podría ralentizar el avance de la IA, ya que las empresas tendrían que navegar por un entorno legal más complejo. Los expertos sugieren varios métodos para la identificación y compensación de contenidos utilizados en IA. Una posibilidad es el desarrollo de tecnologías avanzadas de seguimiento y auditoría que permitan a los creadores de contenido rastrear el uso de sus obras. En términos de compensación, se podría considerar un modelo de micro-pagos o tarifas de licencia basadas en el uso. Este enfoque requeriría una colaboración estrecha entre las empresas de tecnología, los creadores de contenido y posiblemente organismos reguladores para establecer un sistema justo y viable. Sin embargo, implementar un sistema así sería técnicamente complejo y requeriría una regulación y supervisión extensiva.

Un robot entregando monedas a su entrenador humano en un taller renacentista, evocando la demanda de NYT a OpenAI. Creada con Midjourney.

Posibles Escenarios y Estrategias de Adaptación

Las empresas de IA podrían tener que adaptarse a un nuevo entorno legal y económico. Esto podría incluir la formación de asociaciones con creadores de contenido, el desarrollo de tecnologías de IA que minimicen el uso de datos protegidos por derechos de autor, o la búsqueda de nuevas formas de generar datos para entrenamiento.

¿Y las empresas que usan IA generativa?

La demanda de The New York Times contra OpenAI tiene implicaciones para las empresas que utilizan la inteligencia artificial (IA) generativa en su operación diaria. Este caso plantea un precedente importante en el ámbito legal y ético de la IA, que podría redefinir las prácticas comerciales y las estrategias en torno a la tecnología de IA.

1. Reevaluación del riesgo legal y compliance: Las empresas deberán prestar mayor atención a los aspectos legales relacionados con los derechos de autor y el uso de datos. Esto implica una reevaluación de los riesgos asociados con el uso de IA generativa, especialmente en lo que respecta a la procedencia y licencia de los datos utilizados para entrenar modelos de IA. La conformidad legal (compliance) se convierte en un elemento crucial, obligando a las empresas a ser más rigurosas en la verificación y documentación de las fuentes de datos.

2. Impacto en la innovación y desarrollo de productos: Podría haber una desaceleración en el ritmo de innovación en IA, ya que las empresas podrían volverse más miedosas en el desarrollo de productos basados en IA generativa. El miedo a litigios y la necesidad de navegar por un panorama legal más complejo pueden limitar la experimentación y el uso de nuevas técnicas de IA, potencialmente frenando el desarrollo de productos innovadores.

3. Necesidad de nuevas asociaciones y modelos de negocio: Las empresas pueden verse obligadas a buscar nuevas formas de colaboración con creadores de contenido y titulares de derechos de autor. Esto podría incluir negociaciones de licencias o acuerdos de colaboración que aseguren el uso ético y legal del contenido. Además, podrían surgir modelos de negocio que ofrezcan soluciones para la compensación y el uso justo de datos.

4. Aumento de la transparencia y la responsabilidad: Este caso destaca la necesidad de una mayor transparencia en el uso de datos por parte de las empresas de IA. Las compañías podrían necesitar implementar sistemas más robustos para rastrear y reportar el uso de datos, aumentando así la responsabilidad y la confianza en sus prácticas de IA.

¿Se puede demostrar que un contenido está hecho con IA?

Los expertos señalan que los modelos avanzados de IA, especialmente en el campo del procesamiento del lenguaje natural, han alcanzado niveles de sofisticación que pueden hacer que sus creaciones sean indistinguibles de los contenidos creados por humanos a simple vista. Sin embargo, hay herramientas y técnicas en desarrollo que buscan identificar huellas digitales únicas dejadas por modelos de IA específicos. Estas herramientas analizan patrones de lenguaje, consistencia estilística y otras características textuales que pueden no ser evidentes para los lectores humanos. Por ejemplo, se están desarrollando algoritmos específicos para detectar la “voz” de ciertos modelos de IA, como GPT de OpenAI.

¿Se puede demostrar que una IA ha utilizado unos contenidos para entrenarse?

La cuestión de si una IA ha utilizado contenidos específicos para su entrenamiento es más compleja. Los modelos de IA como GPT de OpenAI se entrenan con enormes conjuntos de datos tomados de Internet, incluyendo libros, sitios web, artículos y otros materiales disponibles públicamente. Demostrar que un modelo de IA ha utilizado un contenido específico en su entrenamiento puede ser desafiante, ya que estos modelos no “recuerdan” fuentes individuales de manera explícita, sino que generan respuestas basadas en patrones aprendidos de todo su conjunto de entrenamiento.

Sin embargo, algunos expertos sugieren que el análisis de los contenidos generados por la IA podría ofrecer indicios. Si un modelo de IA reproduce información o estilos muy específicos que son únicos de ciertos contenidos, podría inferirse que esos contenidos formaron parte de su entrenamiento. Esta inferencia, sin embargo, es indirecta y podría no ser concluyente sin información adicional sobre el conjunto de datos de entrenamiento de la IA. La cuestión es ¿se puede demostrar todo esto ante un juez?

Desde luego este es un tema que nos interesa muchísimo en Proportione y del que te iremos informando aquí.


Publicado

en

IA Generativa

por

Español