Tecnología

Los sitios se apresuran a bloquear el rastreador web ChatGPT después de que aparecen las instrucciones – Ars Technica

agosto 12, 2023

Sin publicidad, OpenAI agregó recientemente detalles sobre su rastreador web, GPTBot, al sitio de documentación en línea. GPTBot es el nombre del agente de usuario que la empresa usa para recuperar páginas web para entrenar los modelos de inteligencia artificial detrás de ChatGPT, como GPT-4. A principios de esta semana, algunos sitios Rápidamente anunciaron su intención. Para evitar que GPTBot acceda a su contenido.

En la nueva documentación, OpenAI dice que las páginas web rastreadas con GPTBot «probablemente se usarán para mejorar modelos futuros» y que permitir que GPTBot acceda a su sitio «puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades y seguridad generales».

OpenAI afirma haber implementado filtros que aseguran que GPTBot no acceda a fuentes que están detrás de muros de pago, que recopilan información de identificación personal o cualquier contenido que viole las políticas de OpenAI.

La noticia de la capacidad de bloquear capacitaciones de OpenAI (si las cumple) llega demasiado tarde para afectar los datos de capacitación existentes para ChatGPT o GPT-4, que se descartaron sin previo aviso hace años. OpenAI recopiló datos hasta septiembre de 2021, que es el límite «cognitivo» actual para los modelos de lenguaje de OpenAI.

Cabe señalar que las nuevas instrucciones Tal vez no Evite que las versiones de navegación web de los complementos ChatGPT o ChatGPT accedan a sitios web existentes para transmitir información actualizada al usuario. Este punto no se explica en la documentación y nos hemos puesto en contacto con OpenAI para obtener una aclaración.

La respuesta está en el archivo robots.txt

Según OpenAI documentaciónGPTBot será reconocido por el token de agente de usuario «GPTBot», siendo su cadena completa «Mozilla/5.0 AppleWebKit/537.36 (KHTML, igual que Gecko; compatible; GPTBot/1.0; + https://openai.com/gptbot) «.

READ Por qué los operadores inalámbricos pueden dar iPhone 14s gratis

Los documentos de OpenAI también brindan orientación sobre cómo evitar que GPTBot rastree sitios web utilizando los estándares de la industria. archivo robots.txt archivo, que es un archivo de texto ubicado en el directorio raíz de un sitio web que indica a los rastreadores web (como los que utilizan los motores de búsqueda) que no indexen el sitio.

Es tan fácil como agregar estas dos líneas al archivo robots.txt de su sitio:

User-agent: GPTBot
Disallow: /

OpenAI también dice que los administradores pueden restringir GPTBot de ciertas partes del sitio en un archivo robots.txt con diferentes códigos:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Además, OpenAI introdujo la Bloques de direcciones IP específicas desde el que se ejecutará GPTBot, y que también puede ser bloqueado por cortafuegos.

A pesar de esta opción, el bloqueo de GPTBot no garantizará que los datos de ubicación no terminen entrenando todos los futuros modelos de IA. Además de los problemas con los raspadores que ignoran los archivos robots.txt, existen otros grandes conjuntos de datos de sitios web raspados (como montón) no está afiliado a OpenAI. Estos conjuntos de datos se usan comúnmente para entrenar LLM de código abierto (o de código abierto) como Meta’s Llama 2.

Algunos sitios web reaccionan rápidamente

Si bien ChatGPT fue un gran éxito desde un punto de vista técnico, también fue controvertido por la forma en que extrajo datos protegidos por derechos de autor sin permiso y concentró ese valor en un producto comercial que elude el modelo de publicación en línea. OpenAI ha sido acusado (y demandado) de plagio en ese sentido.

READ Las mejores ofertas de fin de semana: Google Pixel 7, Apple MacBooks, televisores 4K y más

En consecuencia, no es sorprendente ver que algunas personas reaccionan a la noticia de la posibilidad de bloquear su contenido de futuros formularios GPT con una especie de preocupación reprimida. escucho. Por ejemplo, el martes, VentureBeat masculino eso el bordeEscritor de subpila casey newtonY neil clark Desde Clarkesworld, todos dijeron que bloquearían GPTBot poco después de que se conociera la noticia del bot.

Pero para los operadores de grandes sitios web, la opción de bloquear los rastreadores LLM no es tan fácil como parece. Hacer que algunos LLM ignoren los datos de ciertos sitios web dejará brechas de conocimiento que pueden servir muy bien a algunos sitios (como sitios que no quieren perder visitantes si ChatGPT les proporciona su información), pero también podría perjudicar a otros. Por ejemplo, bloquear contenido de futuros modelos de IA podría reducir la huella cultural de un sitio o marca si los chatbots inteligentes se convierten en una interfaz de usuario principal en el futuro. Como experimento mental, imagine una empresa en línea que anuncia que no desea que su sitio web sea indexado por Google en 2002, un movimiento autodestructivo cuando esa era la forma más popular de encontrar información en línea.

Todavía es muy temprano en el juego generativo de IA, y no importa en qué dirección vaya la tecnología, o los sitios individuales intenten optar por no participar en el entrenamiento del modelo de IA, al menos OpenAI ofrece la opción.

Fernando Alcázar

Fernando Alcázar es colaborador de Infocancha.com y se dedica a cubrir temas de actualidad relacionados con noticias, política, negocios, tecnología, deportes, entretenimiento y estilo de vida. Su enfoque se centra en ofrecer información clara, equilibrada y útil para los lectores, destacando los acontecimientos más relevantes del momento. A través de una cobertura precisa y accesible, busca acercar los hechos y las historias que impactan la vida cotidiana y el interés de la audiencia.

READ La beta para desarrolladores de Apple se puede descargar e instalar gratis ahora mismo

DEJA UNA RESPUESTA Cancelar la respuesta

Tecnología

Modo extremo Boost Hour de 1900 MHz y fuente de alimentación de 1000 W recomendada

Fernando Alcázar enero 17, 2022

Tecnología

iOS 16.3: nuevas funciones de iPhone que puedes probar ahora mismo

Fernando Alcázar enero 31, 2023

Tecnología

Baldur’s Gate 3 PS5 Preload, los tiempos de lanzamiento se han revelado a medida que se acerca el lanzamiento de la consola

Fernando Alcázar agosto 17, 2023

Tecnología

Microsoft revierte el controvertido cambio de .NET después de la protesta de la comunidad de código abierto

Fernando Alcázar octubre 24, 2021

Los sitios se apresuran a bloquear el rastreador web ChatGPT después de que aparecen las instrucciones – Ars Technica

La respuesta está en el archivo robots.txt

Algunos sitios web reaccionan rápidamente

DEJA UNA RESPUESTA Cancelar la respuesta

Modo extremo Boost Hour de 1900 MHz y fuente de alimentación de 1000 W recomendada

iOS 16.3: nuevas funciones de iPhone que puedes probar ahora mismo

Baldur’s Gate 3 PS5 Preload, los tiempos de lanzamiento se han revelado a medida que se acerca el lanzamiento de la consola

Microsoft revierte el controvertido cambio de .NET después de la protesta de la comunidad de código abierto

Navigate

Entradas recientes

Pages

Los sitios se apresuran a bloquear el rastreador web ChatGPT después de que aparecen las instrucciones – Ars Technica

La respuesta está en el archivo robots.txt

Algunos sitios web reaccionan rápidamente

DEJA UNA RESPUESTA Cancelar la respuesta

También te podría interesar

Modo extremo Boost Hour de 1900 MHz y fuente de alimentación de 1000 W recomendada

iOS 16.3: nuevas funciones de iPhone que puedes probar ahora mismo

Baldur’s Gate 3 PS5 Preload, los tiempos de lanzamiento se han revelado a medida que se acerca el lanzamiento de la consola

Microsoft revierte el controvertido cambio de .NET después de la protesta de la comunidad de código abierto

Navigate

Entradas recientes

Pages