Economy

OpenAI, la regla de ignorar humanamente que evita que los bots extraigan contenido web

Renata Vargas junio 22, 2024

Las dos empresas emergentes de inteligencia artificial más grandes del mundo están ignorando las solicitudes de los editores de medios para que dejen de extraer su contenido web para obtener datos de capacitación de muestra gratuitos, según ha podido saber Business Insider.

Se descubrió que OpenAI y Anthropic ignoraban o eludían una regla web estática llamada robots.txt, que evita la eliminación automática de sitios web.

TollBit, una startup que tiene como objetivo negociar acuerdos de licencia paga entre editores y empresas de IA, descubrió que muchas empresas de IA se estaban comportando de esta manera y notificó a algunos editores importantes en una carta el viernes, que fue Reuters lo informó antes. La carta no incluía los nombres de ninguna de las empresas de inteligencia artificial acusadas de eludir la norma.

OpenAI y Anthropic han declarado públicamente que respetan el archivo robots.txt y bloquean sus propios rastreadores web, como GTBot y ClaudeBot.

Sin embargo, según las conclusiones de TollBit, dichos bloqueos no se respetan como se afirma. Las empresas de inteligencia artificial, incluidas OpenAI y Anthropic, optan simplemente por «omitir» el archivo robots.txt para recuperar o extraer todo el contenido de un sitio web o página en particular.

Una portavoz de OpenAI se negó a hacer comentarios más allá de la directiva de BI a una empresa Entrada en el blog A partir de mayo, la compañía dice que tiene en cuenta los permisos del rastreador web «cada vez que entrenamos un nuevo modelo». Un portavoz de Anthropic no respondió a los correos electrónicos en busca de comentarios.

Robots.txt es una pieza de código que se ha utilizado desde finales de la década de 1990 como una forma para que los sitios web indiquen a los robots rastreadores que no quieren que sus datos se eliminen ni recopilen. Ha sido ampliamente aceptada como una de las reglas de apoyo no oficiales de la Web.

READ Las cámaras Fusus impulsadas por IA se están extendiendo por los Estados Unidos

Con la llegada de la IA generativa, las nuevas empresas y las empresas de tecnología se apresuran a construir los modelos de IA más potentes. El ingrediente clave son datos de alta calidad. La sed de dichos datos de entrenamiento ha socavado el archivo robots.txt y las convenciones informales que respaldan el uso de este código.

OpenAI está detrás del popular chatbot ChatGPT. El mayor inversor de la empresa es Microsoft. Anthropic está detrás de otro chatbot relativamente popular, Claude. Su mayor inversor es Amazon.

Ambos chatbots brindan respuestas a las preguntas de los usuarios en un tono humano. Estas respuestas sólo son posibles porque los modelos de IA sobre los que se construyen incluyen grandes cantidades de texto escrito y datos extraídos de la web, la mayoría de los cuales están protegidos por derechos de autor o son propiedad de sus creadores.

Varias empresas de tecnología argumentaron el año pasado ante la Oficina de Derechos de Autor de EE. UU. que nada en la web debería considerarse sujeto a derechos de autor cuando se trata de datos de entrenamiento de IA.

OpenAI tiene algunos acuerdos con editores para acceder al contenido, incluido Axel Springer, propietario de BI. La Oficina de Derechos de Autor de EE. UU. actualizará sus directrices sobre inteligencia artificial y derechos de autor a finales de este año.

¿Es usted un empleado de tecnología o alguien más que tiene consejos o ideas para compartir? Póngase en contacto con Callie Hayes en [email protected] O en una aplicación de mensajería seguraSeñal Al +1-949-280-0267. Comunicarse utilizando un dispositivo que no sea de trabajo.

Renata Vargas

«Zombieaholic. Nerd general de Twitter. Analista. Gurú aficionado de la cultura pop. Fanático de la música».

READ La temporada de impuestos para 2023 ya está aquí, pero no espere para presentar la declaración, he aquí por qué.

DEJA UNA RESPUESTA Cancelar la respuesta

Renata Vargas

"Zombieaholic. Nerd general de Twitter. Analista. Gurú aficionado de la cultura pop. Fanático de la música".

Ver todas las entradas

Cómo obtener Slurpee gratis de 7-Eleven el 7/11

Economy

OpenAI, la regla de ignorar humanamente que evita que los bots extraigan contenido web

DEJA UNA RESPUESTA Cancelar la respuesta

Renata Vargas

Cómo obtener Slurpee gratis de 7-Eleven el 7/11

Ford Motor Company demanda a Blue Cross Blue Shield en un caso antimonopolio alegando ganancias ‘astronómicas’

Todo sobre el ciclo de 8 años de Litecoin y el camino hacia los 100.000 dólares

Los precios de la gasolina en EE. UU. vuelven a subir en medio de las conversaciones sobre el embargo petrolero ruso

Navigate

Entradas recientes

Pages

OpenAI, la regla de ignorar humanamente que evita que los bots extraigan contenido web

DEJA UNA RESPUESTA Cancelar la respuesta

Renata Vargas

También podría gustarte

Cómo obtener Slurpee gratis de 7-Eleven el 7/11

Ford Motor Company demanda a Blue Cross Blue Shield en un caso antimonopolio alegando ganancias ‘astronómicas’

Todo sobre el ciclo de 8 años de Litecoin y el camino hacia los 100.000 dólares

Los precios de la gasolina en EE. UU. vuelven a subir en medio de las conversaciones sobre el embargo petrolero ruso

Navigate

Entradas recientes

Pages