Una comparación de aprendizaje profundo vs. profesionales de la salud en detectar enfermedades por imágenes médicas

Los médicos deben ser capaces de detectar enfermedades de forma fiable en las imágenes. El aprendizaje profundo (“deep learning”) ofrece una promesa considerable para el diagnóstico médico (el aprendizaje profundo forma parte de los métodos de “machine learning”). Un grupo de investigadores internacional realizó una revisión sistemática y un meta-análisis para evaluar la precisión diagnóstica de los algoritmos de aprendizaje profundo versus los profesionales de la salud en la clasificación de enfermedades mediante imágenes médicas. El 24 de septiembre 2019 publicaron los resultados en The Lancet Digital Health: Una comparación de aprendizaje profundo contra profesionales de la salud en detectar enfermedades por imágenes médicas. El artículo es de acceso libre:

Xiaoxuan Liu, Livia Faes, Aditya U Kale, Siegfried K Wagner, Dun Jack Fu, Alice Bruynseels, Thushika Mahendiran, Gabriella Moraes, Mohith Shamdas, Christoph Kern, Joseph R Ledsam, Martin K Schmid, Konstantinos Balaskas, Eric J Topol, Lucas M Bachmann, Pearse A Keane, Alastair K Denniston: A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. The Lancet Digital Health, 2019. DOI 10.1016/S2589-7500(19)30123-2. URL https://www.thelancet.com/journals/landig/article/PIIS2589-7500(19)30123-2/fulltext

Los autores realizaron búsquedas en varios bases de datos de literatura para identificar estudios relevantes para el análisis (entre enero 2012 hasta junio 2019). De los 31.587 estudios identificados sólo 69 proporcionaron suficientes datos para construir tablas de contingencia. Se realizó una validación externa fuera de la muestra en 25 estudios, de los cuales 14 realizaron la comparación entre los modelos de aprendizaje profundo y los profesionales de la salud en la misma muestra. Llegaron a la conclusión de que las enfermedades se detectan correctamente en el 87,0% de casos usando métodos de aprendizaje profundo, en comparación con el 86,4% de los profesionales de salud (sensibilidad combinada). La especificidad combinada fue 92,5% para los modelos de aprendizaje profundo y del 90,5% para los profesionales de la salud (considerando estos 14 estudios mencionados).

Esta revisión halló que el rendimiento diagnóstico de los modelos de aprendizaje profundo es (casi) equivalente al de los profesionales de la salud en los casos examinados. Sin embargo, un hallazgo importante de la revisión es que pocos estudios presentaron resultados validados externamente o compararon el desempeño de los modelos de aprendizaje profundo y de los profesionales de la salud que utilizaran la misma muestra. Entonces, la revisión no es adecuada para hacer una declaración globalmente válida, pero es una indicación de que el aprendizaje profundo puede ser usado en diagnósticos por imágenes.

Aunque los autores habían identificados muchos estudios, sólo 14 resultaron ser útiles para el análisis comparativo. Debido al escaso número de estudios que les quedan, los autores piden además estándares de estudio uniformes con el fin de proporcionar mejores análisis en el futuro (aunque un diseño deficiente del estudio no significa necesariamente que el algoritmo de aprendizaje profundo sea de mala calidad). – IMHO, el articulo presenta un tremendo análisis y una muy rica fuente de información!

Referencia adicional: https://www.zeit.de/wissen/2019-09/kuenstliche-intelligenz-medizin-diagnose-krankheiten-bilddiagnostik

1 me gusta