Algoritmo de IA fue entrenado para predecir riesgo de muerte por neumonía y subvalora a pacientes de altísimo riesgo

¿Has escuchado que los algoritmos de Inteligencia Artificial son una “caja negra”? Esto se da porque hay algoritmos matemáticos que no presentan qué variable es la que le da más peso a la predicción. Uno le agrega 100 variables, y el sistema predice un valor, pero no se sabe qué variable tuvo “más peso”. Por eso, se requiere un balance entre PRECISIÓN y COMPRENSIÓN. Hay algoritmos muy precisos, que hoy están en boga, como REDES NEURONALES, ÁRBOLES DE REGRESIÓN, MÁQUINAS DE VECTORES DE SOPORTE y BOSQUES ALEATORIOS, pero son “caja negra” y no nos dejan comprender por qué entregaron tal predicción.

Alrededor del 50% de las muertes debido a causas respiratorias en Chile son provocadas por neumonía. En 2016, de las 104.026 personas fallecidas, 3.166 personas lo hicieron por neumonía.

¿Se puede hacer algo para disminuir estas muertes?
La neumonía es un buen ejemplo de optimización de hospitales. Muchos pacientes se pueden tratar ambulatoriamente y eso es más seguro (fuera del hospital), pero a otros, es necesario tratarlos en el hospital con terapias más “agresivas” y con “mayor soporte”. El problema es decidir a quién ambulatoriamente, y a quién de forma “más agresiva”

Si uno trata antes con antimicrobianos y da soporte a estos pacientes, puede prevenir que mueran debido a esta causa. ¿Y que tal si entrenamos a un algoritmo para que nos diga qué paciente tiene más riesgo de morir y los hospitalizamos y les damos tratamiento agresivo en el hospital?

El trabajo de Rich Caruana analiza este tema.

Link al trabajo

En este estudio, se analizaron 46 variables de 14.199 pacientes que murieron por neumonía. Los dividieron en 2 sets

  • Set de entrenamiento (datos de 9847 pacientes)
  • Set de test (datos de 4352 pacientes)

Hallazgos del historial del paciente

  • enfermedad pulmonar crónica
  • readmisión hospitalaria
  • admitido a través de la sala de emergencias
  • admitido desde un hogar de ancianos
  • insuficiencia cardíaca congestiva
  • cardiopatía isquémica
  • enfermedad cerebrovascular
  • enfermedad hepática crónica
  • Antecedentes de dolor en el pecho
  • edad
  • sexo
  • diabetes mellitus
  • asma
  • cáncer
  • número de enfermedades
  • antecedentes de convulsiones
  • insuficiencia renal

Resultados del examen físico

  • presión arterial diastólica
  • sangrado gastrointestinal
  • frecuencia respiratoria
  • alteración del estado mental
  • ritmo cardíaco
  • respiración sibilante
  • estridor
  • soplo del corazón
  • temperatura

Hallazgos de laboratorio

  • Exámenes de la función hepática
  • nivel de glucosa
  • nivel de potasio
  • hematocrito
  • bandas porcentuales
  • p02
  • concentración de sodio
  • Nivel de nitrógeno ureico plasmático
  • nivel de creatinina
  • nivel de albúmina
  • Conteo de glóbulos blancos
  • pH
  • PC02

Hallazgos de la radiografía de tórax

  • radiografía de tórax positiva
  • derrame pleural
  • cavitación/empiema
  • colapso del lóbulo o de los pulmones
  • infiltrado pulmonar
  • neumotórax
  • masa torácica

Utilizaron diferentes algoritmos matemáticos para predecir quién tiene más riesgo de morir para procesar el set de entrenamiento, y después lo validaron contra el set de test. Los resultados de los algoritmos son los siguientes

Algoritmo matemático Predicción de Muerte
por neumonía (AUC)
Caja negra
Regresión Logística 0,8432 No
Bosques aleatorios 0,8460 Si
LogitBoost 0,8493 Si
GAM 0,8542 No
ga2m 0,8576 No

¿Qué pasó cuando los clínicos analizaron los resultados?
Los clínicos indicaban que el algoritmo funcionaba bien, salvo para pacientes de alto riesgo (como los asmáticos), donde el algoritmo, por alguna razón, los ponía en el grupo de bajo riesgo, cuando todo clínico sabe que una neumonía en un paciente asmático puede ser riesgosa.

Los algoritmos de caja negra, no permiten identificar qué variable es la que generó más impacto en la predicción, pero los otros algoritmos si lo permitían. Ahí divisaron que los algoritmos no estaban considerando al ASMA como riesgoso.

¿Por qué el algoritmo no pondera esos antecedentes?
Esto se da porque generalmente, cuando en una urgencia o consulta ambulatoria un paciente asmático presenta una neumonía, rápidamente se lo hospitaliza y se le da tratamiento agresivo, por lo tanto, se mueren menos y aparecen menos en los datos para entrenamiento.

La información disponible en las Historias Clínicas Electrónicas tienen el sesgo de las decisiones clínicas debidas a la práctica, generando GAPs de datos que pueden no tenerse en cuenta y generar algoritmos que cometan errores que los clínicos no comenten. Esto sucede con muchas decisiones y muchos tipos de condiciones de salud. Lo mismo que pasó acá con los asmáticos, pasa con las embarazadas, o los pacientes con alguna condición de riesgo clásica. Los clínicos, siempre toman en cuenta esas condiciones en la toma de decisiones, y eso sesga la información que se registra.

Si se entrenan algoritmos con datos sesgados, tendremos predicciones sesgadas.

El autor indica que con los algoritmos matemáticos comprensibles, uno puede ver que una variable no pondera y cambiar su ponderación manualmente, y re-entrenar al modelo. Es muy importante que los clínicos sean PARTE esencial del desarrollo de sistemas de Inteligencia Artificial en Medicina.

4 Me gusta

Cada ser humano es unico y no podemos transformar la vida en una receta matematica.
Un algoritmo puede usarse para estimar numeros talla,peso,calorias, volumen pero he visto tantos errores que ya no me convencen lo siento…

Hola Alejandro,

Me parece interesante la opinión que aportas. Estoy de acuerdo en la conclusión que lanzas al final:

Es muy importante que los clínicos sean PARTE esencial del desarrollo de sistemas de Inteligencia Artificial en Medicina.

Como indicas, es especialmente relevante para detectar posibles sesgos en los datos, que un algoritmo por si solo es casi imposible que identifique. Y me gustaría indicar que muchos especialistas en el mundo del Machine Learning somos totalmente conscientes de ello, aunque quizá en años pasados otros grupos dentro del sector optaron por una mentalidad más egocéntrica.

Sin embargo, también me gustaría dejar claro que cada vez se está haciendo un esfuerzo mayor en el mundo del aprendizaje automático para generar interpretabilidad de este tipo de modelos, incluso complejos como el que hace mención al artículo. Aquí hablamos de ello: https://www.sigesa.com/la-interpretabilidad-en-el-aprendizaje-automatico/.

En Sigesa por ejemplo, siempre ha sido un componente transversal considerado en todas nuestras aplicaciones que usan modelos de Machine Learning. Este tipo de approach permite seguir teniendo comprensión aún usando modelos complejos sin tener que optar por modelos más sencillos pero menos precisos.

Igualmente existen investigaciones para detectar posibles bias que puedan tener las predicciones del modelo, de forma que se pueda detectar si un modelo tiende a cometer más errores en grupos poblacionales concretos.

Es importante que todos tengamos claros estos conceptos para poder colaborar de una forma positiva en la resolución de problemas comunes.

Un saludo.

Si, tal cual, y no solo los clínicos, sino el equipo de salud; pero se entiende perfecto la idea.
Las revisiones tienen que ser de profesionales asistenciales comprometidos en sus áreas de experiencia, que puedan poner a prueba el sistema y tengan mirada crítica.
Eso lo hacemos con todo nuestro ser, no solamente con nuestro conocimiento.
A veces podemos detectar errores sistemáticos simples, pero importantes, como que esté mal cargado el rango de vancocinemia en un sistema, y derivado de ello se corrijan mal las dosis del antibiotico; hasta problemas de derecho a la salud más complejos como la accesibilidad a un trasplante órgano por scores que necesitan ser actualizados en función de nueva evidencia médica.
Cualquier sistemática, desde la más analógica, hasta las más compleja, va a reflejar las deficiencias del equipo que la elaboró, y esto trae consecuencias muy concretas para los usuarios.
Por eso, sería interesante leerlos sobre qué temáticas de revisión transversales, e incluso si existen guías de revisión de los sistemas de información en salud, sobre criterios transversales que deben garantizar dichos sistemas.
Digo, existen antecedentes que hayan revisado sistemas de información en salud que certifiquen además de la seguridad de los datos, otros aspectos? Clínicos? Bioéticos? Técnicos? Administrativos?

Quizás hay que comenzar a hablar del tema más complejo, para mí, de la implementación de los algoritmos de inteligencia artificial, la LOCALIZACIÓN.

El algoritmo que funciona para conducir un auto autónomo, puede ser muy bueno en USA o en Europa, pero ¿se imaginan que pueda funcionar correctamente en una ciudad de la India como Bombay?

La realidad es que un algoritmo diseñado para el tránsito en la peor ciudad de USA, Los Ángeles, no funcionará en Bombay, porque las costumbres son muy diferentes (por ejemplo, los autos compiten con los animales en la calle y no se respetan la dirección de las calles). Lo mismo sucede con la información clínica y sus algoritmos. Algo que funciona en un lugar y parece no tener sesgos, puede presentarlos en otro escenario.

La localización de los algoritmos de IA es un capítulo difícil de sortear al querer implementar esto con pacientes. Parecería ser que no hay tanta “inteligencia” en estos algoritmos como nos gustaría que tuviesen.

Hola de nuevo Alejandro,

Lo que comentas de la LOCALIZACIÓN es de nuevo un aspecto del que un perfil con cierto expertise en el mundo del Machine Learning es perfectamente consciente y tendremos en cuenta a la hora de elaborar un modelo. Y se soluciona fácilmente, simplemente añadiendo datos de esa nueva localización o entrenando una versión del modelo específica para, por ejemplo, Bombay, lo que supone simplemente ejecutar el mismo código pero con datos nuevos.

Quizá nos estamos equivocando a la hora de analizar los problemas, y los mismos no se encuentra tanto en la tecnología de Machine Learning en sí sino en el hecho de que se den proyectos de este tipo a perfiles no expertos ni con educación formal en el área, optándose muy a menudo por no valorar los mismos y otorgar la responsabilidad de crear este tipo de modelos a gente sin educación formal en el área (simplemente algún tipo de máster o bootcamp para reconvertir a Data Science) o a grandes consultoras generícas sin especialización en este campo.

El mundo del Machine Learning es un mundo complejo y la gente con perfiles dedicados al mismo hemos tenido años de educación formal y, como digo, somos perfectamente conscientes de problemáticas como las que comentas y que han sido debidamente estudiadas en el pasado, existiendo soluciones para las mismas.

Un saludo.

Por supuesto que las tecnologías actuales permiten LOCALIZAR los modelos… el tema más importante en Informática Biomédica, para mí, es que esa LOCALIZACIÓN siquiera es por país, sino por institución.

La cultura de documentación clínica varía entre las instituciones, por lo tanto, cualquier algoritmo que quiera usar como insumo la documentación de los clínicos tendrá que adaptarse a como estos documentan (en cada institución)

Claramente aquí había un error de detección de una enfermedad, esto pasa mucho con sistemas que tienen sistemas de detección basado solo en códigos (diagnósticos, fármacos, etc…), lo cual definitivamente se debe fortalecer en este tipo de sistemas. Otro tema es la calidad de registro del sistema de ficha clínica el cual impactará fuertemente en lo que salga del algoritmo, es necesario tener un protocolo de validación de los datos de entrada y salida para ver si la herramienta de IA se puede emplear en una institución o no y que hay que hacer para empezar a utilizarlas. Sobre localización, evidente, no solo por la forma de registrar sino por las prevalencias de enfermedad que varían de un país a otro en un país como EEUU puede haber 4 veces mas IAM q en chile, si ponderamos mal estamos fritos, siendo esto una paradoja, por que se supone que los algoritmos de aprendizaje deberían aprender de los datos y esto es un factor clave!. Igual hay que tener cuidado con las interpretaciones ya que los algoritmos no son exactos 100%, mientras sean mejor que el estándar o el análisis manual, se podría decir que funcionan!, luego eso hay que conectarlo con la realidad, con intervenciones clínicas, si logramos detectar e intervenir a una persona más a un “costo razonable” ya estamos obteniendo beneficios, y en el agregado poblacional se podrá ver el beneficio total (costos, avisa, roi, etc.). el algoritmo perfecto no es el que detecta el 100% de los casos a intervenir, sino el que detecta menos casos a intervenir que puedan producir un beneficio poblacional mayor. El típico ejemplo del juego de lotería, ¿que es mejor, un algoritmo que determina que tienes que comprar 1000 billetes x para ganar la loteria?, o un que solo detecta un número el cual será el ganador?, con los dos en teoría vas a ganar la lotería, pero con el segundo la inversión será mejor y resultado el mismo ganar la loteria.