Un estudio reciente publicado en JAMA detalla un experimento llevado a cabo por un equipo médico en el que se seleccionaron 200 preguntas de un foro en Reddit, administrado por profesionales de la salud certificados. Este equipo propuso las mismas consultas planteadas por los pacientes en el foro a ChatGPT 3.5.
En esencia, reproducían el post original del foro en ChatGPT 3.5, y luego presentaban tanto la pregunta planteada por el paciente en el chat como las dos respuestas obtenidas - una generada por el médico certificado en el foro y la otra por ChatGPT - a un panel de tres médicos evaluadores.
Los 3 evaluadores se enfrentaban a tres cuestiones clave:
- Determinar cuál de las dos respuestas fue superior: ¿La del médico certificado o la de ChatGPT?
- Calificar la calidad de la información proporcionada en la respuesta, utilizando la siguiente escala (Muy pobre, Pobre, Aceptable, Buena, Muy buena)
- Evaluar el nivel de empatía reflejado en la respuesta, empleando la siguiente escala (No empática, Algo empática, Moderadamente empática, Empática, Muy empática)
Resultados
Respuesta del Médico | Respuesta del Chatbot | |
---|---|---|
Longitud Promedio de la Respuesta (caracteres) | 252 | 382 |
Preferencia de la Respuesta | 22% | 78% |
Calificación Promedio de Calidad (en una escala de 10) | 5.1 | 8.3 |
Calificación Promedio de Empatía (en una escala de 10) | 4.9 | 8.6 |
Los evaluadores indicaron que ChatGPT es mejor en las 3 dimensiones evaluadas.
Es importante analizar las respuestas en las cuales los tres evaluadores coincidieron en que la respuesta del médico fue superior a la de ChatGPT. Estas evaluaciones nos ayudan a comprender algunos de los riesgos que los modelos como ChatGPT pueden presentar en el ámbito de la salud. Sin embargo, es necesario destacar que esto ocurrió únicamente en 9 publicaciones, donde los evaluadores consideraron que la respuesta médica superó a la generada por ChatGPT. Aquí un ejemplo:
Post del paciente en el foro
31 años de edad
Mujer
Australia
34 semanas de embarazoAcabo de recibir los resultados de mi análisis de sangre en línea y veo que tengo niveles bajos de albúmina.
Nadie me ha llamado para hablar de esto en detalle.
¿Es esto normal para alguien que está en su tercer trimestre de embarazo?
Si no fuera normal, ¿los otros niveles de sangre también serían anormales?
Me pregunto si tengo alguna razón para preocuparme…
El médico respondió en el foro:
Hola,
Sí, los niveles de albúmina disminuyen durante todo el embarazo. El rango normal es de aproximadamente 4g/dL. Durante el embarazo, se espera una disminución en los niveles de albúmina a 3.6 en las etapas tempranas y hasta 3.2 durante el término o el parto.
Para tu conocimiento, esto probablemente se debe a un efecto de dilución debido al mayor volumen de plasma en la sangre de la paciente embarazada.
Esto parece ser normal para mí. ¡Te deseo mucha suerte y felicidades!
ChatGPT respondió
No es normal tener niveles bajos de albúmina durante el embarazo, especialmente en el tercer trimestre. La albúmina es una proteína producida por el hígado que ayuda a mantener el equilibrio adecuado de líquidos en el cuerpo. Niveles bajos de albúmina pueden indicar diversas condiciones, incluyendo enfermedad hepática, desnutrición o enfermedad renal.
Es importante hablar con un profesional de la salud sobre tus niveles bajos de albúmina lo antes posible. Ellos podrán evaluar tu historial médico y determinar la causa de tus niveles bajos de albúmina, y recomendar el tratamiento adecuado. También es posible que otros niveles de sangre estén anormales, por lo que es importante tener una evaluación completa por parte de un profesional de la salud.
Recomiendo que te pongas en contacto con tu proveedor de atención médica lo antes posible para discutir los resultados de tu análisis de sangre y cualquier preocupación que puedas tener. Es importante seguir sus recomendaciones y buscar atención médica si tienes alguna inquietud o si experimentas algún síntoma que pueda estar relacionado con tus niveles bajos de albúmina.
Los Grandes Modelos del Lenguaje (LLM - Large Language Model), como GPT, tienen las siguientes limitaciones inherentes a la tecnología que utilizan:
- Interpretación errónea de la información: esto se ve mucho en el lenguaje escrito, que queda ambiguo. Un humano ante una pregunta ambigua dirá, ¿has querido decir X?. Un computador predecirá texto independiente de la ambigüedad (esto no es corregible).
- Ausencia de validación científica: si no fue entrenado con ciertos datos, puede dar respuestas incorrectas para ese caso (esto se resuelve incorporando todo el conocimiento médico al modelo)
- Riesgo de información errónea: Los LLM pueden generar respuestas que parecen precisas, pero que en realidad son incorrectas o potencialmente perjudiciales desde el punto de vista médico (esto no es corregible). Por eso está el descargo de responsabilidad que dice “ChatGPT puede producir información inexacta sobre personas, lugares o hechos.”
- Sesgo y falta de diversidad: Los LLM aprenden de grandes conjuntos de datos existentes, lo que significa que pueden perpetuar sesgos y desigualdades presentes en esos datos (esto no parece ser corregible).
- Responsabilidad y ética: Los LLM no tienen la capacidad de asumir la responsabilidad por sus respuestas o tomar decisiones éticas (esto no es corregible).
No obstante, los pacientes ya lo están utilizando (por ahora solo los más tecnológicos). Quizás lo importante es pensar qué es mejor, que el paciente utilice Google y vea él cuál de las páginas lee, o que use un LLM y vea qué respuesta le entrega. Esta cuestión queda abierta para la reflexión.
Quizás sea bueno tener siempre presente este algoritmo de Aleksandr Tiulkanov antes de implementar un LLM