Uno de los desafíos actuales en medicina es cómo integrar la inteligencia artificial (IA) al proceso de razonamiento clínico. Aunque suena prometedor, todavía no está claro cuánto impacto real puede tener.
Un artículo reciente de JAMA Network Open evaluó el uso de un Gran Modelo de Lenguaje (LLM), en este caso ChatGPT Plus (GPT-4), como herramienta de apoyo para médicos al enfrentar casos clínicos complejos.
¿Cómo lo hicieron?
El estudio fue un ensayo clínico aleatorizado con 50 médicos, entre residentes y especialistas, de áreas como medicina interna, medicina familiar y emergencias.
Se les presentaron 6 casos clínicos desafiantes (nada de diagnósticos simples) que incluían datos de historia clínica, examen físico y laboratorio. Tenían 60 minutos por caso para analizarlos y registrar su razonamiento utilizando una herramienta llamada “reflexión estructurada”.
Esta herramienta, diseñada con base en estudios sobre cognición médica, les pedía:
- Identificar 3 diagnósticos posibles.
- Argumentar a favor y en contra de cada uno.
- Elegir un diagnóstico final.
- Proponer hasta 3 pasos adicionales para evaluar al paciente.
Los dividieron en dos grupos:
- Intervención con LLM: podían usar ChatGPT Plus junto con herramientas de diagnóstico tradicionales como UpToDate y Google.
- Control sin LLM: solo tenían acceso a las herramientas de diagnóstico tradicionales (como UpToDate y Google.
¿Qué encontraron?
El resultado fue curioso: los médicos con acceso a ChatGPT no fueron más efectivos que los que no lo usaron.
Ambos grupos obtuvieron puntajes similares en la evaluación:
- Grupo con LLM: 76%
- Grupo sin LLM: 74%
Incluso, el tiempo invertido por caso fue prácticamente igual en ambos grupos.
Pero aquí viene lo interesante: cuando los investigadores evaluaron a ChatGPT solo, sin intervención humana, el modelo alcanzó un 92% de precisión en los diagnósticos. Es decir, el LLM “superó” a los médicos, pero los médicos no pudieron superar sus propias barreras al trabajar con la IA.
¿Por qué pasa esto?
Integrar un modelo de lenguaje en la práctica clínica no es solo “preguntar y responder”. Requiere habilidades específicas, como saber formular preguntas efectivas (prompt engineering o ingeniería de instrucciones) entendiendo cómo funciona la herramienta.
El estudio propone varios pasos para mejorar esta interacción:
- Capacitar a los médicos en el uso de IA. Que comprendan cómo fue construido el software y cómo hay que utilizarlo.
- Desarrollar guías predefinidas que faciliten el razonamiento diagnóstico con LLMs.
- Adaptar la educación médica a estas nuevas tecnologías.
Limitaciones y oportunidades
Este estudio tiene sus límites:
- Solo se evaluó un modelo (GPT-4).
- Los médicos no tenían entrenamiento específico en el uso de LLMs para diagnóstico.
- Se trabajó con un número limitado de casos clínicos (6).
A pesar de esto, el artículo aporta información valiosa sobre el potencial de los LLMs en medicina y las barreras actuales para su adopción. También subraya la necesidad de seguir investigando cómo integrar estas herramientas sin comprometer la ética y la seguridad del paciente.
Ejemplo de un caso clínico
Un hombre de 76 años consulta por dolor en la espalda y los muslos, de dos semanas de evolución. El dolor aparece al caminar, pero no al estar sentado o acostado. Además, reporta fiebre, cansancio, anemia y azotemia. Unos días antes del inicio del dolor, se sometió a una angioplastia coronaria con administración de heparina.
El caso completo incluye detalles de antecedentes médicos, examen físico y resultados de laboratorio, desafiando tanto a los médicos como al modelo de IA.
En conclusión, GPT y otros LLMs son prometedores, pero queda trabajo por hacer para que realmente sean aliados efectivos en el razonamiento clínico. La clave podría estar en cómo enseñamos a los médicos a trabajar con estas herramientas o cómo las integramos dentro de nuestras Historias Clínicas Electrónicas.