La herramienta OpenAI utilizada por los médicos 'Whisper' es alucinante: estudio

OpenAI, creador de ChatGPT introducido Whisper hace dos años como una herramienta de inteligencia artificial que transcribe voz en texto. Ahora, la herramienta se utiliza por la empresa de atención médica de IA Nabla y sus 45.000 médicos para ayudar a transcribir conversaciones médicas en más de 85 organizaciones, como la Atención médica de la Universidad de Iowa.

Sin embargo, una nueva investigación muestra que Whisper ha estado “alucinando” o añadiendo declaraciones que nadie ha dicho en las transcripciones de conversaciones, lo que plantea la cuestión de si que tan rapido Las instalaciones médicas deberían adoptar la IA si produce errores.

De acuerdo a la prensa asociadaun investigador de la Universidad de Michigan encontró alucinaciones en el 80% de las transcripciones de Whisper. Un desarrollador anónimo encontró alucinaciones en la mitad de más de 100 horas de transcripciones. Otro ingeniero encontró imprecisiones en casi todas las 26.000 transcripciones que generaron con Whisper.

Las transcripciones defectuosas de conversaciones entre médicos y pacientes podrían tener “consecuencias realmente graves”, dijo a AP Alondra Nelson, profesora del Instituto de Estudios Avanzados de Princeton, Nueva Jersey.

“Nadie quiere un diagnóstico erróneo”, afirmó Nelson.

Relacionado: La IA no es un “cambio revolucionario” y sus beneficios son “exagerados”, dice un economista del MIT

A principios de este año, investigadores de la Universidad de Cornell, la Universidad de Nueva York, la Universidad de Washington y la Universidad de Virginia publicaron un estudiar que rastreó cuántas veces el servicio de voz a texto Whisper de OpenAI tuvo alucinaciones cuando tuvo que transcribir 13.140 segmentos de audio con una duración promedio de 10 segundos. El audio provino de TalkBank. AfasiaBankuna base de datos que presenta las voces de personas con afasiaun trastorno del lenguaje que dificulta la comunicación.

Los investigadores encontraron 312 casos de “frases u oraciones alucinadas completas, que no existían de ninguna forma en el audio subyacente” cuando realizaron el experimento en la primavera de 2023.

Relacionado: Los nuevos resultados de búsqueda con IA de Google ya son alucinantes: les dicen a los usuarios que coman piedras y preparen salsa para pizza con pegamento

Entre las transcripciones alucinadas, el 38% contenía lenguaje dañino, como violencia o estereotipos, que no coincidía con el contexto de la conversación.

“Nuestro trabajo demuestra que existen serias preocupaciones con respecto a la inexactitud de Whisper debido a alucinaciones impredecibles”, escribieron los investigadores.

Los investigadores dicen que el estudio también podría significar un sesgo de alucinación en Whisper, o una tendencia a insertar imprecisiones con mayor frecuencia para un grupo en particular, y no solo para las personas con afasia.

“Basándonos en nuestros hallazgos, sugerimos que este tipo de sesgo de alucinación también podría surgir en cualquier grupo demográfico con problemas del habla que produzcan más disfluencias (como hablantes con otros problemas del habla como disfonía (trastornos de la voz), personas muy mayores o no -hablantes nativos)”, afirmaron los investigadores.

Relacionado: Según se informa, OpenAI utilizó más de un millón de horas de videos de YouTube para entrenar su último modelo de IA

Whisper ha transcrito siete millones de conversaciones médicas a través de Nabla, por El borde.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here