Los ingenieros de Apple demuestran lo frágil que puede ser la 'inferencia' de la IA
Tech

Los ingenieros de Apple demuestran lo frágil que puede ser la 'inferencia' de la IA

Empresas como OpenAI y Google llevan tiempo haciendo esto Promoción de capacidades avanzadas de “razonamiento” como El próximo gran paso En los últimos modelos de inteligencia artificial. Ahora, sin embargo, un nuevo estudio realizado por seis ingenieros de Apple muestra que la «inferencia» matemática exhibida por modelos de lenguaje grandes avanzados puede ser extremadamente frágil y poco confiable frente a cambios aparentemente triviales en problemas estándar comunes.

La fragilidad resaltada en estos nuevos hallazgos ayuda a respaldar investigaciones anteriores que sugieren que el uso de MBA para la comparación de patrones probabilísticos pasa por alto una comprensión formal de los conceptos básicos necesarios para habilidades de razonamiento matemático verdaderamente confiables. «Los MBA actuales son incapaces de pensar verdaderamente de manera lógica», plantean los investigadores basándose en estos hallazgos. «En cambio, intentan replicar los pasos de pensamiento observados en sus datos de entrenamiento».

Mézclalo

En “GSM-Symbolic: Comprensión de los límites de la inferencia matemática en modelos de lenguaje grandes” – actualmente disponible Como papel preimpreso– Los seis investigadores de Apple comienzan con Colección consolidada de GSM8K de más de 8.000 problemas verbales matemáticos de nivel elementaly el es A menudo se utiliza como estándar. a las complejas capacidades de pensamiento de los LLM modernos. Luego adoptan el enfoque novedoso de modificar parte de este conjunto de pruebas para reemplazar dinámicamente ciertos nombres y números con nuevos valores, por lo que una pregunta acerca de que Sophie obtenga 31 compilaciones para su sobrino en el GSM8K podría convertirse en una pregunta acerca de que Bill obtenga 19 compilaciones para su hermano en la evaluación GSM -New Symbolic.

READ  Nintendo podría usar la resolución superior FidelityFX de AMD para mejorar el rendimiento de Switch

Este enfoque ayuda a evitar cualquier posible «contaminación de datos» que pueda resultar de que las preguntas estáticas de GSM8K se introduzcan directamente en los datos de entrenamiento del modelo de IA. Al mismo tiempo, estos cambios accidentales no cambian en absoluto la dificultad real del razonamiento matemático inherente, lo que significa que, en teoría, los modelos deberían funcionar igual cuando se prueban en GSM-Symbolic que en GSM8K.

En cambio, cuando los investigadores probaron más de 20 LLM en el sistema GSM-Symbolic, encontraron que la precisión promedio disminuyó en todos los ámbitos en comparación con GSM8K, con una disminución del rendimiento entre un 0,3 por ciento y un 9,2 por ciento según el modelo. Los resultados también mostraron una variación significativa en 50 ejecuciones GSM-Simbólicas separadas con diferentes nombres y valores. Las brechas de hasta el 15 por ciento de precisión entre las mejores y peores ejecuciones eran comunes dentro de un solo modelo y, por alguna razón, cambiar los números resultaba en una peor precisión que cambiar los nombres.

Este tipo de variación, tanto dentro de diferentes ejecuciones GSM-Simbólicas como en comparación con los resultados de GSM8K, es más que sorprendente porque, como señalan los investigadores, «los pasos generales de inferencia necesarios para resolver la pregunta siguen siendo los mismos». El hecho de que cambios tan pequeños conduzcan a resultados tan variables sugiere a los investigadores que estos modelos no están haciendo ningún razonamiento “formal”, sino que están “intentando”[ing] Realizar un tipo de coincidencia de patrones de distribución, haciendo coincidir las preguntas seleccionadas y los pasos de solución con otros similares que aparecen en los datos de capacitación.

READ  Nintendo está utilizando la caja de dolor de Gom Jabbar para ocultar el Switch 2 a terceros fabricantes

No te distraigas

Sin embargo, la variación general explicada en las pruebas GSM-Symbolic fue a menudo relativamente pequeña en el gran esquema de las cosas. Por ejemplo, la precisión del ChatGPT-4o de OpenAI cayó del 95,2 por ciento en GSM8K al 94,9 por ciento en GSM-Symbolic, lo que sigue siendo impresionante. Esta es una tasa de éxito muy alta al usar cualquiera de los criterios, independientemente de si el modelo en sí usa o no lógica «formal» detrás de escena (aunque la precisión general de muchos modelos cae dramáticamente cuando los investigadores agregan solo uno o dos pasos lógicos adicionales a los problemas). .

Sin embargo, los exámenes LLM evaluados obtuvieron resultados mucho peores cuando los investigadores de Apple modificaron el estándar GSM-Symbolic agregando «datos aparentemente relevantes pero en última instancia sin importancia» a las preguntas. Para el conjunto de criterios «GSM-NoOp» (abreviatura de «sin operación»), una pregunta sobre cuántos kiwis recoge alguien durante varios días podría modificarse para incluir el detalle ocasional de que «cinco de ellos [the kiwis] «Era un poco más pequeña que el promedio».

La adición de estos artefactos rojos resultó en lo que los investigadores describieron como una “caída catastrófica del rendimiento” en la precisión en comparación con GSM8K, que oscila entre el 17,5 por ciento y el 65,7 por ciento, según el modelo probado. Estas dramáticas caídas en la precisión resaltan las limitaciones inherentes del uso de una simple “coincidencia de patrones” para “convertir datos en operaciones sin comprender realmente su significado”, escribieron los investigadores.

DEJA UNA RESPUESTA

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

"Fan web incurable. Entusiasta de la comida típica. Experto en twitter galardonado. Tvaholic".