ChatGPT ahora se niega responder: ¿cada versión es más tonta?

En una prueba de 500 preguntas su capacidad para responder respuestas ha orillado a ChatGPT a responder: «no puedo ayudarte con eso».

Fabián Vega

Las universidades de Stanford y UC Berkeley publicaron un estudio donde compararon los resultados que arrojaron las versiones 3.5 y 4 de ChatGTP de OpenAI entre los meses de marzo y junio de este año y encontraron que sus respuestas en lógica-matemática fueron cada peores.

De acuerdo con el estudio la precisión para resolver problemas matemáticos bajó, sobre todo en ChatGPT-4, con resultados 2.4 por ciento peores comparados a su 97.6 por ciento de exactitud que obtuvo en marzo pasado.

Mientras que GPT-3.5 subió con 86.8 por ciento, un 7.4 por ciento mejor de lo que lo había hecho anteriormente.

Te podría gustar: El creador de ChatGPT pide tiempo para regular a las IA, al menos 10 años.

Ambos modelos de lenguaje, propiedad de OpenAI, demostraron ser un poco más “tontos” en las siguientes áreas:

Resolución de problemas matemáticos.
Generación de código.
Razonamiento visual.
Respuestas a preguntas sensibles.

Con una prueba de 500 preguntas, ChatGPT se ha limitado aún más en el número de caracteres que ofrece al momento de dar una respuesta larga. Inclusive negándose a dar respuesta a algunos temas sensibles.

En algunos casos el número de caracteres por respuesta cayó de 600 a solo 140. Lo que comúnmente incluye respuestas negativas como:

Lo siento, no puedo ayudarte con eso.

Algo que para los investigadores es un claro indicador de que ambas versiones se han vuelto más seguras, pero también ofrecen una racionalización menor para cada ocasión en la que se niega a dar una respuesta.

Sin embargo, aún con el estudio, del que, por cierto, se dijo agradecido, el vicepresidente de Producto y Asociaciones de OpenAI, Peter Welinder compartió en X que no están empeorando su programación volviendo más tonto al chatbot

Todo lo contrario: hacemos que cada versión sea más inteligente que la anterior.

¿Por qué empeoran en vez de mejorar?

Contrario a las declaraciones de Welinder, las universidades encontraron que el principal problema al que se enfrenta ChatGPT es que está aprendiendo de él mismo, lo que también incluye sus errores.

Para Ilia Shumailov, una de las autoras del estudio, la solución es más que obvia si se buscara generar nuevo contenido humano para entrenar en vez de dejarlo todo en manos de la IA.

No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.

Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.
— Peter Welinder (@npew) July 13, 2023