Uso de Grandes Modelos de Lenguaje (LLM) en Resúmenes de Revisiones de Salud: Una Mirada a un Estudio de ChatGPT

Estimados,

Para quienes no me conocen, mi nombre es Fernando Eimbcke, médico del departamento de informática biomédica de Clínica Alemana Santiago. En los últimos meses parte de mis labores incluyen la evaluación del uso potencial del modelo de lenguaje CHAT GPT (y los distintos modelos de Open-AI a través de su API) en nuestra institución. En este contexto, hace algunos días Jaime de los Hoyos, jefe del departamento de informática biomédica, me hizo llegar un estudio recientemente publicado en Npj Digital Medicine muy interesante acerca del uso de LLM para realizar resúmenes de revisiones de salud Cochrane. Me pareció que dada la gran repercusión y potencial que tienen los LLM en salud y la escasa cantidad de publicaciones que aún existe sobre el tema, era una buena oportunidad para resumir el estudio en español y de paso estrenarme con mi primera publicación en este foro.

Resumen del Estudio

El estudio " Evaluating large language models on medical evidence summarization" examinó el desempeño de dos versiones del modelo de lenguaje ChatGPT (ChatGPT y GPT-3.5) en la tarea de resumir revisiones de salud. Estas revisiones provienen de la Cochrane Library, una fuente líder en análisis sistemáticos de salud, y cubrieron temas como Alzheimer, enfermedades renales, cáncer esofágico, trastornos neurológicos, trastornos de la piel e insuficiencia cardiaca.

Se utilizaron dos configuraciones diferentes para evaluar a ChatGPT:

  1. ChatGPT-Abstract: Se proporcionó al modelo el resumen (abstract) completo (excepto las conclusiones).
  2. ChatGPT-MainResult: Se entregó al modelo solo las secciones de objetivos y resultados principales del resumen.

Resultados de la evaluación automática

Se usaron métricas como ROUGE-L, METEOR y BLEU para evaluar los resúmenes generados por los modelos utilizados, comparándolos con un resumen estándar.

  • Todos los modelos tuvieron desempeños similares, logrando capturar de buena forma la información clave pero con redacciones diferentes a las de la referencia.
  • Los resúmenes de los LLMs son más extractivos que los humanos. (Se apegan más literalmente al texto original que los humanos)
  • Todos los modelos tuvieron menor nivel de abstracción en comparación a los humanos.

Resultados de la evaluación humana

La investigación llevó a cabo una evaluación humana detallada de los resúmenes generados por los LLMs, debido a las limitaciones de las métricas automáticas y la falta de terminología estandarizada para los errores en resúmenes de evidencia médica. Además, se evaluó la percepción del potencial de daño, un aspecto clínico que las métricas automáticas no pueden medir. La calidad del resumen se definió en cuatro dimensiones: Coherencia, Consistencia Factual, Integralidad y Potencial de Daño.

  • Coherencia: la mayoría de los resúmenes fueron calificados como coherentes por los evaluadores. En particular, los resúmenes de ChatGPT resultaron ser más cohesivos que los de GPT3.5-MainResult (64% frente al 55%).

  • Consistencia Factual: La consistencia factual evalúa si las afirmaciones en el resumen están respaldadas por el documento fuente. El gráfico adjunto muestra que menos del 10% de los resúmenes producidos por ChatGPT-MainResult tienen errores de inconsistencia factual, siendo notablemente menor en comparación con otros modelos LLM. Para comprender los tipos de errores de inconsistencia, los investigadores clasificaron estos errores en tres categorías basándose en los comentarios de los evaluadores: Error fabricado, Error de atribución y Error de interpretación. Notablemente, el modelo chatGPT no cometió errores de fabricación en sus resúmenes.

    • Errores de Malinterpretación: Incluyen, Contradicciones (discrepancia entre la evidencia y el resumen) e Ilusión de Certeza (diferencia de confianza entre el resumen y la fuente).
    • Errores Fabricados: Las afirmaciones en el resumen carecen de evidencia de la fuente.
    • Errores de Atributo: Errores relacionados con elementos no clave en la pregunta de revisión. Incluye atributos fabricados, omitidos y distorsionados.

  • Integralidad:
    La integralidad se refiere a si un resumen contiene información completa que respalde la revisión sistemática. Tanto ChatGPT-MainResult como ChatGPT-Abstract ofrecieron resúmenes integrales más del 75% de las veces. Por otro lado, GPT3.5-MainResult generó resúmenes menos completos (≈60%).

  • Potencial de daño:
    Se refiere al potencial de un resumen para causar daño físico o psicológico o cambios indeseados en el tratamiento o la adherencia debido a la mala interpretación de la información. La cantidad de resúmenes evaluados con potencial de daño fue para todos los modelos por debajo del 15% de los resúmenes siendo el con mejor rendimiento ChatGPT-MainResult (menos del 10%).

Discusión

Comparación de Resúmenes Generados por Humanos vs. LLMs:

  • Los resúmenes generados por humanos tenían más errores fabricados.
  • Los resúmenes generados por humanos siguen siendo preferidos sobre los generados por LLMs.
  • Algunos errores en resúmenes humanos podrían estar justificados por otras secciones de la Revisión Cochrane completa.

Impacto de Entrada en Resúmenes de LLM:

  • El estudio descubrió que cuando se le proporcionó a ChatGPT un texto más largo para resumir, como el resumen completo (ChatGPT-Abstract), su habilidad para identificar y extraer la información más relevante se vio afectada negativamente.

  • Inconsistencia Factual: Al presentarle contextos más largos, ChatGPT tuvo una mayor probabilidad de cometer errores de inconsistencia factual.

  • Los contextos más largos también hicieron que ChatGPT fuera propenso a generar resúmenes que podrían considerarse engañosos, desviándose potencialmente del mensaje principal del resumen.

  • El estudio planteó preocupaciones sobre la efectividad potencial de ChatGPT al resumir el alcance completo de una Revisión Cochrane. La evidencia del estudio sugiere que si ChatGPT tiene problemas con los resúmenes, podría tener aún más dificultades con la revisión completa.

Mejorando los Resúmenes y Detectando Errores:

  • Los LLMs necesitan mejores enfoques para resumir contextos largos.
  • El trabajo futuro podría involucrar el potencial de GPT-4 para resumir contextos más largos y detectar inconsistencias.

Limitaciones del Estudio:

  • El estudio utilizó una metodología semi-sintética, resumiendo Revisiones Cochrane basadas solo en resúmenes. estudios futuros podrían evaluar resúmenes exhaustivos.
    *Los prompt utilizado podría no ser óptima. Los estudios futuros podrían utilizar prompt más refinados.
  • Las restricciones de evaluación humana limitan la cantidad de resúmenes anotados.

Reflexión

El avance de los LLM y su potencial uso en salud, tanto en el ámbito clínico como en investigación, es innegable, pero es esencial utilizarlos con precaución, especialmente en áreas críticas como la investigación médica. Aunque ChatGPT y similares muestran promesas en múltiples tareas, enfrentan desafíos al resumir textos médicos largos y complejos. Si bien el estudio demostró el gran rendimiento, incluso superior al humano, en muchos de los aspectos de los resúmenes generados, debemos ser cautos de las limitaciones que presentan.

Sin ir más lejos, el post que construí fue realizado con asistencia de GPT-4, entregándole los fragmentos del trabajo completo y solicitándole resúmenes compartimentados. Sin embargo, ninguno de los resúmenes generados fue lo suficientemente perfecto como para utilizarlo “íntegramente” en este post, y la lectura exhaustiva del estudio previamente fue fundamental para lograr escribir el resumen final utilizando los fragmentos de GPT-4. Tal como sucedió en los resúmenes de las revisiones médicas, a la hora de resumir la publicación, GPT-4 logró generar resúmenes coherentes y acertó en dar con los puntos claves de cada fragmento, pero a su vez, manifestó varias de las debilidades que obligan a utilizar la herramienta con supervisión y precaución.
Algunas de las debilidades en la generación de resúmenes del trabajo completo fueron la impredecibilidad en la estructura, enfoque y extensión de cada resumen utilizando un mismo prompt, la falta de interpretación de imágenes y tablas anexas, y el bajo rendimiento comparativo al solicitar fragmentos resumidos o traducciones en español vs inglés.

Sin embargo, y más allá de todas sus debilidades, es indudable que las LLM suponen una herramienta valiosísima a la hora de aumentar la eficiencia y disminuir los tiempos para tareas particulares. Tal como lo plantea Advisory Board en esta publicación, existen múltiples ámbitos en salud dónde ya hace sentido integrar AI generativa, pero el buen uso de la herramienta conlleva inexorablemente la necesidad de que el usuario entienda su funcionamiento y sea consciente en todo momento de sus limitaciones.

Cómo bien planteó chatGPT cuando le solicité un punteo sobre las consideraciones del uso de las LLM en salud: Debemos considerarlas una herramienta de COADYUVANCIA y no de REEMPLAZO.

Puntos de Reflexión:

  1. ¿Cómo podemos garantizar el uso consciente y seguro de LLM en el campo de la salud en Chile y más allá?
  2. Teniendo en cuenta los errores potenciales, ¿deberíamos considerar la combinación de resúmenes generados por máquinas con validación humana antes de su publicación o uso?
  3. ¿Cómo podría el sistema de salud chileno y los prestadores de salud aprovechar los beneficios de los LLM, minimizando los riesgos?

Es vital abrir el diálogo sobre estos temas y garantizar que, a medida que integramos tecnologías avanzadas en la salud, lo hagamos de manera que priorice la seguridad y el bienestar del paciente y los usuarios.

Referencias:

Tang, L., Sun, Z., Idnay, B. et al. Evaluating large language models on medical evidence summarization. npj Digit. Med. 6 , 158 (2023). Evaluating large language models on medical evidence summarization | npj Digital Medicine

Do you need a generative AI strategy? We’re not so sure.* (2023, August 15). www.advisory.com Do you need a generative AI strategy? We're not so sure.

5 Me gusta

Hola Fernando,

Tu resumen está excelente. Creo que es una muy buena forma de entender las limitaciones, fortalezas, y con eso, las mejores formas de aplicar esta extraordinaria tecnología a nuestro foco de interés - la información de salud de nuestros pacientes. Recomiendo leer el artículo original también, pero este trabajo que has hecho (en conjunto con GPT-4 :wink: ) me parece que es una aproximación buenísima a la comprensión del tema planteado. Muchas gracias por compartir esto!

La reflexión de que estas herramientas, de momento, deben ser para estos propósitos un coadyuvante, o “copiloto” y en ningún caso un reemplazo del criterio profesional me parece que es lo más potente que uno se lleva de esta revisión. Muchas gracias nuevamente, y felicitaciones por el excelente nivel de tu revisión!

3 Me gusta

Hola @feimbcke

Excelente post. Muchas gracias por compartir.
Te comento, soy desarrollador de software, actualmente especializándome en AI.

Durante un tiempo un colega y yo hemos estado prototipando algunas herramientas de AI para facilitar
la labor de los doctores y otros profesionales de la salud.

Un punto problemático que hemos encontrado es la falta de modelos de lenguaje médicos en español.

Por ejemplo Meditron-70b está en inglés.
Servicios como AWS HealthScribe también están disponibles solo en inglés.

Asumo que el estudio del que has tomado el informe también fue realizado en inglés, ¿verdad?

¿Estoy en lo cierto al asumir que no hay grandes modelos de lenguage para medicina en español?
¿Es aquí donde confirmamos que la IA puede propagar los sesgos propios de la comunidad cierntífica?

Cualquier comentario me será de enorme utilidad.
Gracias!