Cuidado programadores, ChatGPT se equivoca en más de la mitad de las preguntas de programación

Rubén Castro, 11 agosto 2023

Son los Choice Days de AliExpress con ofertas de hasta el 60% en los mejores productos y códigos de descuento:

ESCD03: 3€ de descuento con EUR29 de compra mínima
ESCD08: 8€ de descuento con EUR69 de compra mínima
ESCD20: 20€ de descuento con EUR169 de compra mínima
ESCD30: 30€ de descuento con EUR239 de compra mínima
ESCD50: 50€ de descuento con EUR369 de compra mínima

Las IA generativas se equivocan a menudo (ni siquiera sus creadores lo ocultan), por eso no es buena idea utilizarlas para ayudar a crear código. Para poner a prueba las capacidades generales y los conocimientos de ChatGPT en este campo, se le planteó un gran número de preguntas sobre programación de software, de las cuales se equivocó en más de la mitad. Sin embargo, consiguió engañar a un número significativo de personas.

El estudio en cuestión lo hizo la Universidad de Purdue y consistió en plantear a ChatGPT 517 preguntas de Stack Overflow y preguntar a una docena de participantes voluntarios por los resultados. Las respuestas se evaluaron no sólo por si eran correctas, sino también por su coherencia, exhaustividad y concisión. El equipo también analizó el estilo lingüístico y el sentimiento de las respuestas.

El resultado no fue bueno para ChatGPT, ni para los humanos… La herramienta de OpenAI sólo respondió correctamente al 48% de las preguntas.

Lo que resulta especialmente interesante es que la exhaustividad y el estilo de lenguaje bien articulado de ChatGPT hicieron que casi el 40% de sus respuestas siguieran siendo las preferidas por los participantes. Por desgracia para la IA generativa, el 77% de esas respuestas preferidas eran erróneas.

“Durante nuestro estudio, observamos que sólo cuando el error en la respuesta de ChatGPT es obvio, los usuarios pueden identificarlo”, afirma el artículo, escrito por los investigadores Samia Kabir, David Udo-Imeh, Bonan Kou y el profesor asistente Tianyi Zhang. “Sin embargo, cuando el error no es fácilmente verificable o requiere IDE o documentación externas, los usuarios no suelen identificar la incorrección o subestiman el grado de error de la respuesta”.

Incluso cuando la respuesta de ChatGPT era obviamente errónea, dos de los 12 participantes seguían prefiriéndola debido al tono agradable, confiado y positivo de la IA. Su exhaustividad y el estilo de redacción de libro de texto también contribuyeron a que una respuesta objetivamente incorrecta pareciera correcta a los ojos de algunas personas.

“Muchas respuestas son incorrectas porque ChatGPT es incapaz de entender el contexto subyacente de la pregunta”, explica el artículo.

Los fabricantes de IA generativa incluyen advertencias en las páginas de sus productos sobre la posibilidad de que las respuestas que dan sean erróneas. Incluso Google ha advertido a sus empleados de los peligros de los chatbots, incluido su propio Bard, y de que eviten utilizar directamente código generado por estos servicios. Cuando se le preguntó por qué, la compañía dijo que Bard puede hacer sugerencias de código no deseadas, pero sigue ayudando a los programadores. Google también dijo que pretendía ser transparente sobre las limitaciones de su tecnología. Apple, Amazon y Samsung, por su parte, son algunas de las empresas que han prohibido por completo ChatGPT.

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.