Entendimiento médico - nuevo servicio de Amazon para analizar texto libre en medicina

Amazon liberó un nuevo servicio que está revolucionando el área de informática biomédica. El 75% de la información sobre la salud de los pacientes se encuentra en texto libre, en notas o evoluciones de los profesionales de la salud, en informes de biopsias o de imagenología, en formularios como los protocolos operatorios y otros. En todos estos escenarios, sólo algunas variables quedan codificadas, y para entender al paciente, irremediablemente hay que leer el texto libre.

https://aws.amazon.com/comprehend/medical/

Los sistemas de NLP (Natural Language Processing - Procesamiento del Lenguaje Natural) llevan bastante tiempo en desarrollo en medicina, con diferentes grados de aceptación de los resultados.

¿Qué problemas tienen todos estos sistemas?
Para entrenarlos, o sea, que el algoritmo entienda que la frase “se descarta neumonía”, significa que tiene que decir que el código de neummonia no está presente, se requieren millones de textos libres y mapeos a terminologías controladas como SNOMED CT o UMLS. Y esto es difícil de conseguir. Requiere la construcción de un CORPUS de conocimiento.

Amazon tiene una ventaja no menor, como también Google. Cuentan con millones de textos libres. No de medicina en particular, pero si de interés general. Sus potentes algoritmos y hardware pueden procesar la información a una escala no comparable. Es así que cuentan con sistemas de NLP que entienden diferentes idiomas. Ahora, están agregando al “idioma médico”, probablemente con colaboración con alguna importante red de hospitales que está entregando los textos libres que los médicos escriben para que el algoritmo aprenda a identificarlos.

Qué es lo mejor de este servicio que ofrecen ahora. Entrega, por cada predicción de lo que el médico quizo decir, una probabilidad de acertarle. Así que uno puede desarrollar un software que tome en cuenta la probabilidad y tenga diferentes comportamientos.

Por ejemplo, si uno quiere que ayudar a su equipo de GRD ofreciéndole como output de todas las evoluciones de una historia clínica, los códigos CIE-10 y CIE-9-MC que el algoritmo encuentra, podría utilizar sólo los códigos predichos que tengan una probabilidad del 70% (van a haber varias predicciones que no corresponden, pero el codificador podrá tomar la decisión). En cambio, si necesito sólo buscar casos con alta certeza porque no va a haber un humano que diga “esto sí, esto no”, deberé utilizar una probabilidad más alta, por arriba del 90%.

¿Y qué pasa en Español?
Hoy existen 2 servicios de NLP médico en español de España que tienen un buen resultado y entregan información estructurada de un texto libre.

Cada vez estamos más cerca de dejar de solicitar a los clínicos que completen decenas de campos estructurados para obtener conocimiento.