OpenAI, la regla de ignorar humanamente que evita que los bots extraigan contenido web
Economy

OpenAI, la regla de ignorar humanamente que evita que los bots extraigan contenido web

Las dos empresas emergentes de inteligencia artificial más grandes del mundo están ignorando las solicitudes de los editores de medios para que dejen de extraer su contenido web para obtener datos de capacitación de muestra gratuitos, según ha podido saber Business Insider.

Se descubrió que OpenAI y Anthropic ignoraban o eludían una regla web estática llamada robots.txt, que evita la eliminación automática de sitios web.

TollBit, una startup que tiene como objetivo negociar acuerdos de licencia paga entre editores y empresas de IA, descubrió que muchas empresas de IA se estaban comportando de esta manera y notificó a algunos editores importantes en una carta el viernes, que fue Reuters lo informó antes. La carta no incluía los nombres de ninguna de las empresas de inteligencia artificial acusadas de eludir la norma.

OpenAI y Anthropic han declarado públicamente que respetan el archivo robots.txt y bloquean sus propios rastreadores web, como GTBot y ClaudeBot.

Sin embargo, según las conclusiones de TollBit, dichos bloqueos no se respetan como se afirma. Las empresas de inteligencia artificial, incluidas OpenAI y Anthropic, optan simplemente por «omitir» el archivo robots.txt para recuperar o extraer todo el contenido de un sitio web o página en particular.

Una portavoz de OpenAI se negó a hacer comentarios más allá de la directiva de BI a una empresa Entrada en el blog A partir de mayo, la compañía dice que tiene en cuenta los permisos del rastreador web «cada vez que entrenamos un nuevo modelo». Un portavoz de Anthropic no respondió a los correos electrónicos en busca de comentarios.

Robots.txt es una pieza de código que se ha utilizado desde finales de la década de 1990 como una forma para que los sitios web indiquen a los robots rastreadores que no quieren que sus datos se eliminen ni recopilen. Ha sido ampliamente aceptada como una de las reglas de apoyo no oficiales de la Web.

READ  Perspectiva global para más de 2021-2026

Con la llegada de la IA generativa, las nuevas empresas y las empresas de tecnología se apresuran a construir los modelos de IA más potentes. El ingrediente clave son datos de alta calidad. La sed de dichos datos de entrenamiento ha socavado el archivo robots.txt y las convenciones informales que respaldan el uso de este código.

OpenAI está detrás del popular chatbot ChatGPT. El mayor inversor de la empresa es Microsoft. Anthropic está detrás de otro chatbot relativamente popular, Claude. Su mayor inversor es Amazon.

Ambos chatbots brindan respuestas a las preguntas de los usuarios en un tono humano. Estas respuestas sólo son posibles porque los modelos de IA sobre los que se construyen incluyen grandes cantidades de texto escrito y datos extraídos de la web, la mayoría de los cuales están protegidos por derechos de autor o son propiedad de sus creadores.

Varias empresas de tecnología argumentaron el año pasado ante la Oficina de Derechos de Autor de EE. UU. que nada en la web debería considerarse sujeto a derechos de autor cuando se trata de datos de entrenamiento de IA.

OpenAI tiene algunos acuerdos con editores para acceder al contenido, incluido Axel Springer, propietario de BI. La Oficina de Derechos de Autor de EE. UU. actualizará sus directrices sobre inteligencia artificial y derechos de autor a finales de este año.

¿Es usted un empleado de tecnología o alguien más que tiene consejos o ideas para compartir? Póngase en contacto con Callie Hayes en [email protected] O en una aplicación de mensajería seguraSeñal Al +1-949-280-0267. Comunicarse utilizando un dispositivo que no sea de trabajo.

DEJA UNA RESPUESTA

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

"Zombieaholic. Nerd general de Twitter. Analista. Gurú aficionado de la cultura pop. Fanático de la música".