Los sitios se apresuran a bloquear el rastreador web ChatGPT después de que aparecen las instrucciones – Ars Technica

Los sitios se apresuran a bloquear el rastreador web ChatGPT después de que aparecen las instrucciones – Ars Technica

Sin publicidad, OpenAI agregó recientemente detalles sobre su rastreador web, GPTBot, al sitio de documentación en línea. GPTBot es el nombre del agente de usuario que la empresa usa para recuperar páginas web para entrenar los modelos de inteligencia artificial detrás de ChatGPT, como GPT-4. A principios de esta semana, algunos sitios Rápidamente anunciaron su intención. Para evitar que GPTBot acceda a su contenido.

En la nueva documentación, OpenAI dice que las páginas web rastreadas con GPTBot «probablemente se usarán para mejorar modelos futuros» y que permitir que GPTBot acceda a su sitio «puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades y seguridad generales».

OpenAI afirma haber implementado filtros que aseguran que GPTBot no acceda a fuentes que están detrás de muros de pago, que recopilan información de identificación personal o cualquier contenido que viole las políticas de OpenAI.

La noticia de la capacidad de bloquear capacitaciones de OpenAI (si las cumple) llega demasiado tarde para afectar los datos de capacitación existentes para ChatGPT o GPT-4, que se descartaron sin previo aviso hace años. OpenAI recopiló datos hasta septiembre de 2021, que es el límite «cognitivo» actual para los modelos de lenguaje de OpenAI.

Cabe señalar que las nuevas instrucciones Tal vez no Evite que las versiones de navegación web de los complementos ChatGPT o ChatGPT accedan a sitios web existentes para transmitir información actualizada al usuario. Este punto no se explica en la documentación y nos hemos puesto en contacto con OpenAI para obtener una aclaración.

La respuesta está en el archivo robots.txt

Según OpenAI documentaciónGPTBot será reconocido por el token de agente de usuario «GPTBot», siendo su cadena completa «Mozilla/5.0 AppleWebKit/537.36 (KHTML, igual que Gecko; compatible; GPTBot/1.0; + https://openai.com/gptbot) «.

READ  Los jugadores de Pokémon Scarlet y Violet han convertido el juego en Tony Hawk's Pro Skater

Los documentos de OpenAI también brindan orientación sobre cómo evitar que GPTBot rastree sitios web utilizando los estándares de la industria. archivo robots.txt archivo, que es un archivo de texto ubicado en el directorio raíz de un sitio web que indica a los rastreadores web (como los que utilizan los motores de búsqueda) que no indexen el sitio.

Es tan fácil como agregar estas dos líneas al archivo robots.txt de su sitio:

User-agent: GPTBot
Disallow: /

OpenAI también dice que los administradores pueden restringir GPTBot de ciertas partes del sitio en un archivo robots.txt con diferentes códigos:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Además, OpenAI introdujo la Bloques de direcciones IP específicas desde el que se ejecutará GPTBot, y que también puede ser bloqueado por cortafuegos.

A pesar de esta opción, el bloqueo de GPTBot no garantizará que los datos de ubicación no terminen entrenando todos los futuros modelos de IA. Además de los problemas con los raspadores que ignoran los archivos robots.txt, existen otros grandes conjuntos de datos de sitios web raspados (como montón) no está afiliado a OpenAI. Estos conjuntos de datos se usan comúnmente para entrenar LLM de código abierto (o de código abierto) como Meta’s Llama 2.

Algunos sitios web reaccionan rápidamente

Si bien ChatGPT fue un gran éxito desde un punto de vista técnico, también fue controvertido por la forma en que extrajo datos protegidos por derechos de autor sin permiso y concentró ese valor en un producto comercial que elude el modelo de publicación en línea. OpenAI ha sido acusado (y demandado) de plagio en ese sentido.

READ  Aleatorio: las fallas se están extendiendo en el horror de Pokémon Scarlett y Violet viral

En consecuencia, no es sorprendente ver que algunas personas reaccionan a la noticia de la posibilidad de bloquear su contenido de futuros formularios GPT con una especie de preocupación reprimida. escucho. Por ejemplo, el martes, VentureBeat masculino eso el bordeEscritor de subpila casey newtonY neil clark Desde Clarkesworld, todos dijeron que bloquearían GPTBot poco después de que se conociera la noticia del bot.

Pero para los operadores de grandes sitios web, la opción de bloquear los rastreadores LLM no es tan fácil como parece. Hacer que algunos LLM ignoren los datos de ciertos sitios web dejará brechas de conocimiento que pueden servir muy bien a algunos sitios (como sitios que no quieren perder visitantes si ChatGPT les proporciona su información), pero también podría perjudicar a otros. Por ejemplo, bloquear contenido de futuros modelos de IA podría reducir la huella cultural de un sitio o marca si los chatbots inteligentes se convierten en una interfaz de usuario principal en el futuro. Como experimento mental, imagine una empresa en línea que anuncia que no desea que su sitio web sea indexado por Google en 2002, un movimiento autodestructivo cuando esa era la forma más popular de encontrar información en línea.

Todavía es muy temprano en el juego generativo de IA, y no importa en qué dirección vaya la tecnología, o los sitios individuales intenten optar por no participar en el entrenamiento del modelo de IA, al menos OpenAI ofrece la opción.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *