En un reciente estudio clínico realizado por expertos de varios centros de investigación estadounidenses, se exploró el impacto de los 'grandes modelos de lenguaje' (o LLMs), como ChatGPT-4, en el proceso de diagnóstico médico.
Y los resultados han sido reveladores: los médicos que hicieron uso de la plataforma de OpenAI junto a sus recursos convencionales obtuvieron resultados sólo ligeramente mejores que los médicos que no tuvieron ningún acceso al bot...
...pero, para sorpresa de los investigadores, ChatGPT actuando de forma autónoma superó a ambos grupos de médicos.
¿Chatbots vs. médicos?
El estudio, que implicó a 50 médicos de diversas especialidades (medicina interna, medicina familiar y emergencias), asignó a los participantes a dos grupos: uno que utilizó un chatbot junto con herramientas tradicionales de apoyo al diagnóstico, y otro que usó únicamente recursos convencionales como bases de datos clínicas. Además, se evaluó el rendimiento del chatbot actuando de forma autónoma.
Así, el chatbot, utilizado en solitario, logró una puntuación media del 92% en un indicador que medía la precisión y calidad del razonamiento diagnóstico, superando tanto a los médicos con acceso a la herramienta (76%) como a aquellos sin ella (74%).
El sesgo humano y la subutilización de la IA
Una de las sorpresas más notables fue la resistencia de los médicos a aceptar diagnósticos alternativos sugeridos por el chatbot, incluso cuando estos eran más precisos. Según explicó el Dr. Adam Rodman, coautor del estudio y experto en medicina interna.
"No escuchaban a la inteligencia artificial cuando les decía cosas que …