El Auge del Sistema de Licencias para AI: Un Cambio Necesario en la Industria
En medio de la creciente inquietud sobre el uso de datos no licenciados en la inteligencia artificial (IA), la reciente resolución de $1.5 mil millones alcanzada por Anthropic ha llevado a la industria a reflexionar sobre su problema con los datos de entrenamiento. Actualmente, hay hasta 40 casos pendientes que buscan compensaciones por el uso no autorizado de datos, uno de los cuales incluye a Midjourney, que se enfrenta a una demanda por crear imágenes del icónico Superman.
Sin un sistema de licencias adecuado, las empresas de IA podrían estar en riesgo de enfrentar una avalancha de demandas por derechos de autor que, según algunos expertos, podría frenar el avance de esta industria de manera permanente. Ante esta situación, un grupo de tecnólogos y editores web ha lanzado el sistema Real Simple Licensing (RSL), que permite la concesión de licencias de datos a gran escala, siempre que las empresas de IA estén dispuestas a adoptarlo. Este innovador sistema recibe el apoyo de importantes editores web como Reddit, Quora y Yahoo, generando expectativas sobre su capacidad para atraer a grandes laboratorios de IA a la mesa de negociación.
El cofundador de RSL, Eckart Walther, quien también fue parte fundamental en la creación del estándar RSS, señala que el objetivo principal de este sistema es contar con acuerdos de licencia legibles por máquinas que se integren en la infraestructura de Internet. A pesar de que grupos como la Dataset Providers Alliance ya abogaban por prácticas de recolección más claras, RSL se presenta como el primer intento de establecer una infraestructura técnica y legal que facilite esta labor.
En el ámbito técnico, el Protocolo RSL prescribe los términos específicos de licencia que los editores pueden establecer para su contenido, lo cual se reflejará en los archivos “robots.txt” de los sitios web participantes. Esto generará un marco homogéneo que permitirá identificar claramente qué datos están sujetos a qué términos.
El aspecto legal contempla la creación de la organización de licencias colectiva, RSL Collective, que se encargará de negociar términos y recopilar regalías, funcionando de manera similar a ASCAP para músicos. Esto permitirá a los editores pequeños acceder a un sistema de licencias que, de otro modo, no podrían lograr por sí mismos.
Entre los web publishers que se han unido a esta iniciativa, se encuentran Yahoo, Reddit, Medium, O’Reilly Media y otros. Algunos, como Reddit, ya cuentan con contratos de licencia establecidos, recibiendo anualmente hasta $60 millones de Google por el uso de su contenido. Sin embargo, empresas más pequeñas podrían depender exclusivamente de los términos colectivos de RSL.
Aunque la propuesta tiene sus méritos, los desafíos son significativos. La dificultad radica en poder rastrear y verificar cuándo se requiere el pago de regalías por un determinado conjunto de datos de entrenamiento. Mientras que productos como el AI Search Abstracts de Google pueden realizar esto de manera eficaz, para otros modelos de IA podría ser casi imposible confirmar si un documento específico fue parte de su entrenamiento.
A pesar de estas complicaciones, los creadores de RSL se muestran optimistas sobre la posibilidad de que las empresas de IA puedan adaptarse. Han manifestado que algunas de las licencias que ya han establecido requieren mecanismos de reporte que permitirían realizar un seguimiento adecuado, aunque no es necesario que este sistema sea perfecto.
Una de las grandes incógnitas sigue siendo si las empresas de IA aceptarán este sistema. Aunque hay ejemplos de laboratorios que no dudan en pagar por datos, el web ha sido históricamente considerado como una fuente de datos de bajo coste. La aparición de conjuntos de datos como Common Crawl también dificulta la implementación de regalías en un entorno donde los laboratorios están acostumbrados a utilizar recursos gratuitos.
Recientemente, algunos líderes de IA han expresado la necesidad de un sistema como RSL, manifestando que se requiere un marco claro que aborde estas problemáticas. Con la očekivanja de que RSL pueda convertirse en la solución necesaria, la industria mira hacia el futuro.
El contexto actual es uno de cambio y adaptación. A medida que la IA continúa evolucionando y expandiéndose hacia nuevas fronteras, la implementación de un sistema de licencias robusto podría ser el paso definitivo hacia un modelo sostenible en el manejo de datos, asegurando tanto la protección de los derechos de los creadores como el progreso en la innovación tecnológica.
Gracias por leer Columna Digital, puedes seguirnos en Facebook, Twitter, Instagram o visitar nuestra página oficial. No olvides comentar sobre este articulo directamente en la parte inferior de esta página, tu comentario es muy importante para nuestra área de redacción y nuestros lectores.