Un chatbot de inteligencia artificial (IA) puede escribir resúmenes de trabajos de investigación falsos tan convincentes que los científicos a menudo no pueden detectarlos, según una preimpresión publicada en el servidor bioRxiv a fines de diciembre.1. Los investigadores están divididos sobre las implicaciones para la ciencia.
“Estoy muy preocupada”, dice Sandra Wachter, quien estudia tecnología y regulación en la Universidad de Oxford, Reino Unido, y no participó en la investigación. “Si ahora estamos en una situación en la que los expertos no pueden determinar qué es cierto o no, perdemos al intermediario que necesitamos desesperadamente para guiarnos en temas complicados”, agrega.
El chatbot, ChatGPT, crea texto realista e inteligente en respuesta a las indicaciones del usuario. es unmodelo de lenguaje grande‘, un sistema basado en redes neuronales que aprenden a realizar una tarea al digerir grandes cantidades de texto existente generado por humanos. La empresa de software OpenAI, con sede en San Francisco, California, lanzó la herramienta el 30 de noviembre y es de uso gratuito.
Desde su lanzamiento, los investigadores han estado lidiando con los problemas éticos en torno a su uso, porque gran parte de su producción puede ser difícil de distinguir del texto escrito por humanos. Los científicos han publicado una preimpresión2 y una editorial3 escrito por ChatGPT. Ahora, un grupo dirigido por Catherine Gao en la Universidad Northwestern en Chicago, Illinois, ha utilizado ChatGPT para generar resúmenes de trabajos de investigación artificiales para probar si los científicos pueden detectarlos.
Los investigadores le pidieron al chatbot que escribiera 50 resúmenes de investigación médica basados en una selección publicada en JAMA, El diario Nueva Inglaterra de medicina, El BMJ, La lanceta y Medicina natural. Luego los compararon con los resúmenes originales al pasarlos por un detector de plagio y un detector de salida de IA, y le pidieron a un grupo de investigadores médicos que detectaran los resúmenes fabricados.
Bajo el radar
Los resúmenes generados por ChatGPT navegaron a través del verificador de plagio: la puntuación mediana de originalidad fue del 100 %, lo que indica que no se detectó plagio. El detector de salida de IA detectó el 66 % de los resúmenes generados. Pero los revisores humanos no lo hicieron mucho mejor: identificaron correctamente solo el 68 % de los resúmenes generados y el 86 % de los resúmenes genuinos. Identificaron incorrectamente el 32 % de los resúmenes generados como reales y el 14 % de los resúmenes genuinos como generados.
“ChatGPT escribe resúmenes científicos creíbles”, dicen Gao y sus colegas en la preimpresión. “Los límites del uso ético y aceptable de grandes modelos de lenguaje para ayudar a la escritura científica aún no se han determinado”.
Wachter dice que, si los científicos no pueden determinar si la investigación es cierta, podría haber “consecuencias nefastas”. Además de ser problemático para los investigadores, que podrían verse arrastrados por rutas de investigación defectuosas, porque la investigación que están leyendo ha sido fabricada, existen “implicaciones para la sociedad en general porque la investigación científica juega un papel muy importante en nuestra sociedad”. Por ejemplo, podría significar que las decisiones políticas basadas en la investigación son incorrectas, agrega.
Pero Arvind Narayanan, científico informático de la Universidad de Princeton en Nueva Jersey, dice: “Es poco probable que algún científico serio use ChatGPT para generar resúmenes”. Agrega que si los resúmenes generados pueden detectarse es “irrelevante”. “La pregunta es si la herramienta puede generar un resumen que sea preciso y convincente. No puede, por lo que la ventaja de usar ChatGPT es minúscula y la desventaja es significativa”, dice.
Irene Solaiman, que investiga el impacto social de la IA en cara de abrazo, una empresa de IA con sede en Nueva York y París, teme cualquier dependencia de los grandes modelos de lenguaje para el pensamiento científico. “Estos modelos están entrenados en información pasada y el progreso social y científico a menudo puede provenir de pensar, o estar abierto a pensar, de manera diferente al pasado”, agrega.
Los autores sugieren que aquellos que evalúan las comunicaciones científicas, como los trabajos de investigación y las actas de congresos, deberían implementar políticas para acabar con el uso de textos generados por IA. Si las instituciones eligen permitir el uso de la tecnología en ciertos casos, deben establecer reglas claras sobre la divulgación. A principios de este mes, la Cuadragésima Conferencia Internacional sobre Aprendizaje Automático, una gran conferencia de IA que se llevará a cabo en Honolulu, Hawái, en julio, anunció que prohibió los artículos escritos por ChatGPT y otras herramientas de lenguaje de IA.
Solaiman agrega que en los campos donde la información falsa puede poner en peligro la seguridad de las personas, como la medicina, es posible que las revistas deban adoptar un enfoque más riguroso para verificar que la información sea precisa.
Narayanan dice que las soluciones a estos problemas no deben centrarse en el chatbot en sí, “sino en los incentivos perversos que conducen a este comportamiento, como las universidades que realizan revisiones de contratación y promoción contando documentos sin tener en cuenta su calidad o impacto”.
Este artículo se reproduce con permiso y fue publicado por primera vez el 12 de enero de 2023.