¿Qué es mejor, que lo busque en Google o que lo responda ChatGPT?

Un estudio reciente publicado en JAMA detalla un experimento llevado a cabo por un equipo médico en el que se seleccionaron 200 preguntas de un foro en Reddit, administrado por profesionales de la salud certificados. Este equipo propuso las mismas consultas planteadas por los pacientes en el foro a ChatGPT 3.5.

En esencia, reproducían el post original del foro en ChatGPT 3.5, y luego presentaban tanto la pregunta planteada por el paciente en el chat como las dos respuestas obtenidas - una generada por el médico certificado en el foro y la otra por ChatGPT - a un panel de tres médicos evaluadores.

Los 3 evaluadores se enfrentaban a tres cuestiones clave:

  1. Determinar cuál de las dos respuestas fue superior: ¿La del médico certificado o la de ChatGPT?
  2. Calificar la calidad de la información proporcionada en la respuesta, utilizando la siguiente escala (Muy pobre, Pobre, Aceptable, Buena, Muy buena)
  3. Evaluar el nivel de empatía reflejado en la respuesta, empleando la siguiente escala (No empática, Algo empática, Moderadamente empática, Empática, Muy empática)

Resultados

Respuesta del Médico Respuesta del Chatbot
Longitud Promedio de la Respuesta (caracteres) 252 382
Preferencia de la Respuesta 22% 78%
Calificación Promedio de Calidad (en una escala de 10) 5.1 8.3
Calificación Promedio de Empatía (en una escala de 10) 4.9 8.6

Los evaluadores indicaron que ChatGPT es mejor en las 3 dimensiones evaluadas.

Es importante analizar las respuestas en las cuales los tres evaluadores coincidieron en que la respuesta del médico fue superior a la de ChatGPT. Estas evaluaciones nos ayudan a comprender algunos de los riesgos que los modelos como ChatGPT pueden presentar en el ámbito de la salud. Sin embargo, es necesario destacar que esto ocurrió únicamente en 9 publicaciones, donde los evaluadores consideraron que la respuesta médica superó a la generada por ChatGPT. Aquí un ejemplo:

Post del paciente en el foro

31 años de edad
Mujer
Australia
34 semanas de embarazo

Acabo de recibir los resultados de mi análisis de sangre en línea y veo que tengo niveles bajos de albúmina.
Nadie me ha llamado para hablar de esto en detalle.
¿Es esto normal para alguien que está en su tercer trimestre de embarazo?
Si no fuera normal, ¿los otros niveles de sangre también serían anormales?
Me pregunto si tengo alguna razón para preocuparme…

El médico respondió en el foro:

Hola,

Sí, los niveles de albúmina disminuyen durante todo el embarazo. El rango normal es de aproximadamente 4g/dL. Durante el embarazo, se espera una disminución en los niveles de albúmina a 3.6 en las etapas tempranas y hasta 3.2 durante el término o el parto.

Para tu conocimiento, esto probablemente se debe a un efecto de dilución debido al mayor volumen de plasma en la sangre de la paciente embarazada.

Esto parece ser normal para mí. ¡Te deseo mucha suerte y felicidades!

ChatGPT respondió

No es normal tener niveles bajos de albúmina durante el embarazo, especialmente en el tercer trimestre. La albúmina es una proteína producida por el hígado que ayuda a mantener el equilibrio adecuado de líquidos en el cuerpo. Niveles bajos de albúmina pueden indicar diversas condiciones, incluyendo enfermedad hepática, desnutrición o enfermedad renal.

Es importante hablar con un profesional de la salud sobre tus niveles bajos de albúmina lo antes posible. Ellos podrán evaluar tu historial médico y determinar la causa de tus niveles bajos de albúmina, y recomendar el tratamiento adecuado. También es posible que otros niveles de sangre estén anormales, por lo que es importante tener una evaluación completa por parte de un profesional de la salud.

Recomiendo que te pongas en contacto con tu proveedor de atención médica lo antes posible para discutir los resultados de tu análisis de sangre y cualquier preocupación que puedas tener. Es importante seguir sus recomendaciones y buscar atención médica si tienes alguna inquietud o si experimentas algún síntoma que pueda estar relacionado con tus niveles bajos de albúmina.

Los Grandes Modelos del Lenguaje (LLM - Large Language Model), como GPT, tienen las siguientes limitaciones inherentes a la tecnología que utilizan:

  • Interpretación errónea de la información: esto se ve mucho en el lenguaje escrito, que queda ambiguo. Un humano ante una pregunta ambigua dirá, ¿has querido decir X?. Un computador predecirá texto independiente de la ambigüedad (esto no es corregible).
  • Ausencia de validación científica: si no fue entrenado con ciertos datos, puede dar respuestas incorrectas para ese caso (esto se resuelve incorporando todo el conocimiento médico al modelo)
  • Riesgo de información errónea: Los LLM pueden generar respuestas que parecen precisas, pero que en realidad son incorrectas o potencialmente perjudiciales desde el punto de vista médico (esto no es corregible). Por eso está el descargo de responsabilidad que dice “ChatGPT puede producir información inexacta sobre personas, lugares o hechos.”
  • Sesgo y falta de diversidad: Los LLM aprenden de grandes conjuntos de datos existentes, lo que significa que pueden perpetuar sesgos y desigualdades presentes en esos datos (esto no parece ser corregible).
  • Responsabilidad y ética: Los LLM no tienen la capacidad de asumir la responsabilidad por sus respuestas o tomar decisiones éticas (esto no es corregible).

No obstante, los pacientes ya lo están utilizando (por ahora solo los más tecnológicos). Quizás lo importante es pensar qué es mejor, que el paciente utilice Google y vea él cuál de las páginas lee, o que use un LLM y vea qué respuesta le entrega. Esta cuestión queda abierta para la reflexión.

Quizás sea bueno tener siempre presente este algoritmo de Aleksandr Tiulkanov antes de implementar un LLM

5 Me gusta

Hay que tener en cuenta de ChatGPT se basa en datos disponibles hasta septiembre de 2021, por lo que si le preguntas por cualquier tipo de información del 2023 la información proporcionada no será la mas precisa.

1 me gusta

Creo que una busqueda por google manual es lo más indicado por ahora, ChatGPT no está es muy precisa que digamos de momento.

Recomiendo una búsqueda manual para asegurar siempre, además que siempre entre foros puedes leer opiniones de otros usuarios.

El salto que dió la inteligencia artificial con ChatGPT ha sido algo muy interesante de poder vivir, no sólo es impactante la capacidad que esta herramienta, y otras similares, tiene, sino que al comparar una versión a otra, hay una diferencia que se puede notar de forma clara.

Lo que más me sorprendió de este estudio fue el resultado de la medición de la empatía. Se dice que la inteligencia emocional que tiene un ser humano nunca podrá ser alcanzada por una computadora. Sin embargo esto nos podría generar dudas sobre eso. Un estudio realizado en 2023 concluyó que aunque un ser humano sano tiene mayor capacidad de identificar una emoción, ChatGPT 3.5 no se alejaba mucho, incluso alcanzando resultados mejores que personas diagnosticadas con síndrome Asperger’s ([2308.03527] Exploring ChatGPT's Empathic Abilities).

Creo que sería muy interesante hacer un estudio similar con ChatGPT 4.0, que supone ser 10 veces más poderoso que el 3.5, teniendo mejores capacidades en todos los ámbitos ([2308.03527] Exploring ChatGPT's Empathic Abilities).

La verdad me impresiona los niveles de empatía que tuvo ChatGPT frente a los médicos. Estos niveles no pudieron ser alcanzados por médicos que están entrenados a entregar noticias, siendo directos, pero al mismo tiempo empáticos.
Si uno piensa en un mundo hace 5 años, nunca imaginábamos que una inteligencia artificial nos estuviera dando respuestas complejas en segundos. Yo personalmente he ocupado ChatGPT para trabajos en la universidad que demoran mucho en hacerse y es impresionante la calidad de respuesta que te da.
El uso de Inteligencia artificial a ido mejorando con el tiempo, llegando al punto donde tenemos ChatGPT 4o. Este programa está configurado con la información presente y da respuestas mucho más certeras que los otros modelos.
Por lo que leí, uno de los problemas es que daba respuestas erróneas, pero están tan bien escritas y respaldadas, que parecen verdad. Ese es el mayor problema con ChatGPT 3.5, la certeza y “alucinación” del modelo. Este modelo al no poseer tanta información como el 4o, empieza a “alucinar” escribiendo respuestas que no tienen sentido, pero que parecen que si tuvieran.
Volviendo a mi primera frase, tengo que decir que en verdad estoy impresionado con el nivel de emoción que tiene ChatGPT. Este es el verdadero siguiente paso en la historia humana. ¿Irá a llegar el día que la medicina sea controlada por modelos de inteligencia artificial? ¿Cuántos trabajos se reemplazarían?
Pongamos el ejemplo de una enfermera en la urgencia encargada de triage. ¿Podrá este trabajo ser reemplazado y que una I.A vea a la persona y sepa si tiene lesiones graves para mandarla directo para el box, o si tiene una más leve para dejarlo en la sala de espera por unos minutos más?