¿Los modelos de lenguaje como GPT-4 tienen lugar en el diagnóstico médico?

Uno de los desafíos actuales en medicina es cómo integrar la inteligencia artificial (IA) al proceso de razonamiento clínico. Aunque suena prometedor, todavía no está claro cuánto impacto real puede tener.

Un artículo reciente de JAMA Network Open evaluó el uso de un Gran Modelo de Lenguaje (LLM), en este caso ChatGPT Plus (GPT-4), como herramienta de apoyo para médicos al enfrentar casos clínicos complejos.

¿Cómo lo hicieron?

El estudio fue un ensayo clínico aleatorizado con 50 médicos, entre residentes y especialistas, de áreas como medicina interna, medicina familiar y emergencias.

Se les presentaron 6 casos clínicos desafiantes (nada de diagnósticos simples) que incluían datos de historia clínica, examen físico y laboratorio. Tenían 60 minutos por caso para analizarlos y registrar su razonamiento utilizando una herramienta llamada “reflexión estructurada”.

Esta herramienta, diseñada con base en estudios sobre cognición médica, les pedía:

  1. Identificar 3 diagnósticos posibles.
  2. Argumentar a favor y en contra de cada uno.
  3. Elegir un diagnóstico final.
  4. Proponer hasta 3 pasos adicionales para evaluar al paciente.

Los dividieron en dos grupos:

  • Intervención con LLM: podían usar ChatGPT Plus junto con herramientas de diagnóstico tradicionales como UpToDate y Google.
  • Control sin LLM: solo tenían acceso a las herramientas de diagnóstico tradicionales (como UpToDate y Google.

¿Qué encontraron?

El resultado fue curioso: los médicos con acceso a ChatGPT no fueron más efectivos que los que no lo usaron.

Ambos grupos obtuvieron puntajes similares en la evaluación:

  • Grupo con LLM: 76%
  • Grupo sin LLM: 74%

Incluso, el tiempo invertido por caso fue prácticamente igual en ambos grupos.

Pero aquí viene lo interesante: cuando los investigadores evaluaron a ChatGPT solo, sin intervención humana, el modelo alcanzó un 92% de precisión en los diagnósticos. Es decir, el LLM “superó” a los médicos, pero los médicos no pudieron superar sus propias barreras al trabajar con la IA.

¿Por qué pasa esto?

Integrar un modelo de lenguaje en la práctica clínica no es solo “preguntar y responder”. Requiere habilidades específicas, como saber formular preguntas efectivas (prompt engineering o ingeniería de instrucciones) entendiendo cómo funciona la herramienta.

El estudio propone varios pasos para mejorar esta interacción:

  • Capacitar a los médicos en el uso de IA. Que comprendan cómo fue construido el software y cómo hay que utilizarlo.
  • Desarrollar guías predefinidas que faciliten el razonamiento diagnóstico con LLMs.
  • Adaptar la educación médica a estas nuevas tecnologías.

Limitaciones y oportunidades

Este estudio tiene sus límites:

  • Solo se evaluó un modelo (GPT-4).
  • Los médicos no tenían entrenamiento específico en el uso de LLMs para diagnóstico.
  • Se trabajó con un número limitado de casos clínicos (6).

A pesar de esto, el artículo aporta información valiosa sobre el potencial de los LLMs en medicina y las barreras actuales para su adopción. También subraya la necesidad de seguir investigando cómo integrar estas herramientas sin comprometer la ética y la seguridad del paciente.


Ejemplo de un caso clínico

Un hombre de 76 años consulta por dolor en la espalda y los muslos, de dos semanas de evolución. El dolor aparece al caminar, pero no al estar sentado o acostado. Además, reporta fiebre, cansancio, anemia y azotemia. Unos días antes del inicio del dolor, se sometió a una angioplastia coronaria con administración de heparina.

El caso completo incluye detalles de antecedentes médicos, examen físico y resultados de laboratorio, desafiando tanto a los médicos como al modelo de IA.


En conclusión, GPT y otros LLMs son prometedores, pero queda trabajo por hacer para que realmente sean aliados efectivos en el razonamiento clínico. La clave podría estar en cómo enseñamos a los médicos a trabajar con estas herramientas o cómo las integramos dentro de nuestras Historias Clínicas Electrónicas.

3 Me gusta

Estimados buenos días:

Reciban un coordial saludos desde Quito - Ecuador.
Gracias por compartir el análisis sobre la integración de herramientas de inteligencia artificial en la atención médica. Coincido en que es crucial seguir investigando cómo estas tecnologías pueden implementarse sin comprometer la ética y la seguridad del paciente.

En PVCI CORPS, Ecuador, contamos con experiencia en servicios de telemedicina a través de DR. WHATSAPP PVCI, que tiene un alcance nacional y global. Utilizamos IA como apoyo en nuestros diagnósticos clínicos presuntivos y definitivos, asegurando que nunca sustituya el conocimiento académico de nuestros profesionales de salud.

Estoy interesado en dialogar más a fondo este tema y explorar posibles colaboraciones.

Saludos cordiales,

Mario Gallo Sandoval
COORDINADOR GENERAL CORPORACIÓN SOCIAL PROYECTOS DE VIDA CON IDENTIDAD.
SUBDIRECTOR DE GESTIÓN SOCIAL PARA ECUADOR DE NGDH (NUEVA GENERACIÓN DE DERECHOS HUMANOS
ECUADOR - MEXICO)

1 me gusta

Por un instante temí que el Teorema Fundamental de C. Friedman que es una de la bases de la Informática Biomédica se había venido abajo o casi :wink:

1 me gusta