Lamentablemente aún seguimos viendo mensajes en redes sociales, presentaciones de proveedores o en diferentes medios digitales donde presentan un sistema de información clínico y no se oculta la información personal identificatoria de personas. Entendemos que en parte es porque se desconoce cuáles son los datos que identifican a una persona en un sistema, qué se considera información anónima y qué es la información de-identificada.
Este artículo se basa en los lineamientos de HIPAA, la ley de USA para protección de datos personales en salud.
Estos son los 18 Datos identificatorios de persona (paciente)
- Nombres y Apellidos
- Dirección postal
- Subdivisión geográfica menor a estado
- Todos los elementos de fecha y hora (a excepción de año) directamente relacionadas al individuo, incluyendo fecha de nacimiento, de admisión, de alta, de fallecimiento, de examen; y todas las edades mayores a 89 y fechas relacionadas (incluyendo año) indicativos de tal edad, a menos que dichas fechas y elementos relacionados sean reemplazados por categorías (por ejemplo: edad 90 o más).
- Números de teléfono fijo y/o móvil
- Dirección de correo electrónico
- RUT / Pasaporte / Cédula de Identidad
- Número de atención (número de historia clínica-ficha, número de examen, número de cuenta corriente, número de atención, folio de atención…)
- Números de serie de dispositivos médicos implantados o utilizados por el paciente
- Identificador del seguro de salud del paciente
- Identificador de cuentas bancarias (número de cuenta)
- Identificado de vehículos, incluyendo números de serie de motor y patentes
- Direcciones web (URL donde trabaja)
- Direcciones IP
- Identificadores biométricos, incluyendo huellas dactilares y registros de voz
- Fotografías de rostro completo
- Cualquier número, código o característica que permita identificar al paciente en un sistema de información
- Números de licencias o certificados (licencia profesional del paciente)
Estos son los datos identificatorios de persona que están regulados en las leyes de HIPAA en USA y está penado por ley divulgar información de pacientes asociado a cualquiera de estos 18 datos identificatorios de persona (se conoce como información identificable). Aquí pueden leer la guía de métodos de de-identificación de HIPAA,
Los datos relacionados con los profesionales de la salud que atienden a los pacientes no son considerados datos identificatorios de pacientes y podrían estar presentes según se requiera en los procesos de anonimización y de-identificación.
Es muy importante destacar la importancia de eliminar o modificar las FECHAS en los registros clínicos. Por ejemplo, si yo le pregunto al equipo de Anatomía Patológica de la Clínica Alemana de quién es este resultado de biopsia, me van a decir que no tienen idea y que no pueden buscarlo (tendrían que leer las miles de biopsias creadas en el sistema en 2019 para encontrarla)
Pero si les entrego la fecha del informe me dirán que se tendrán que leer todos los informes de ese día (tedioso) pero que pueden encontrar de quién es mediante fuerza bruta.
La anonimización de fechas es un proceso que puede hacerse mediante el proceso de anonimización de fechas inteligente (ver más adelante).
Anonimización irreversible
El concepto de anonimizar significa que los datos clínicos (signos vitales, resultados de laboratorio, evoluciones en texto libre…) no contienen ninguno de los 18 datos identificatorios de personas, y que hacen imposible -o muy muy difícil-, la reconstitución de alguna relación entre los datos y el individuo al que la información hace alusión.
Se define como PERSONA IDENTIFICABLE a toda persona cuya identidad pueda determinarse, directa o indirectamente, mediante cualquier información referida a su identidad física, fisiológica, psíquica, económica, cultural o social (los 18 identificadores). Una persona física no se considerará identificable si dicha identificación requiere plazos o actividades desproporcionados (como por ejemplo revisar todas las biopsias de un año).
Por lo tanto, si los datos son anonimizados y a través de ellos no se puede identificar a la persona a la que pertenecen, quedan fuera de la aplicación del ámbito legal por cuanto no son considerados datos personales.
De-identificación o anonimización reversible
Son los datos clínicos (signos vitales, resultados de laboratorio, evoluciones en texto libre) que han sido anonimizados (se eliminaron los 18 datos identificatorios), pero que incluyen algún tipo de identificador codificado, haciendo posible saber que un set de datos corresponden al mismo individuo, sin identificar al individuo. Este formato es habitualmente usado por investigadores biomédicos con necesidad de recolectar y agrupar datos de un mismo individuo en el tiempo. En caso de ser necesario, el centro de explotación de datos es el único que tiene la facultad de vincular el identificador codificado al individuo aludido.
Es cuando agregamos, a la información anonimizada una etiqueta identificatoria que puede ser un número o un hash y que permite a quien gobierna los datos poder re-identificar a la persona si es requerido.
Si los datos de-identificados son entregados a un tercero sin capacidad que el tercero pueda identificar a las personas, son datos “anónimos” para este.
Datos fáciles y difíciles de anonimizar
- Los datos que son muy fáciles de anonimizar son aquellos que están estructurados y que sabemos que nadie puede haber agregado algún dato identificatorio en texto libre (Ej: signos vitales, resultados de laboratorio, prescripciones…).
- Los datos que contienen texto libre son los desafiantes. Ahí, un profesional podría ingresar alguno de los 18 datos identificatorios de persona, y son estos los más complejos de anonimizar. Para lograrlo hay que realizar Procesamiento del Lenguaje Natural.
Enmascarado inteligente de Fechas
Muchas veces, las fechas son importantes para los investigadores y no contar con estas es un problema. Para eso se puede hacer un enmascarado inteligente de fechas que permita controlar la anonimización y resolver el problema de investigación. Para ello se debe correr un algoritmo de identificación de fechas y horas y realizar un cálculo RANDOM de modificación inteligente (ej. Restar a cada fecha y hora un conjunto variable de días y minutos que haga imposible de trazar la información pero que aún mantenga la correlación temporal de la información).
Situación de hoy
Es necesario utilizar la información biomédica para el conocimiento de las enfermedades y el avance de la ciencia, y es un desafío constante el balance entre promover la investigación y mantener la privacidad y confidencialidad de la información.
En los momentos de crisis, como el que estamos viviendo, uno ve una cierta efervescencia en las ganas de compartir información de personas para investigar y encontrar soluciones. Hay cientos de pedidos a países para que liberen datos de pacientes para investigar los temas de Covid-19. Muchos de los que solicitan la liberación de datos clínicos (ej. Resultados de laboratorio de cada persona) son también los que en otros momentos ponen peros para disponibilizar datos anónimos o de-identificados de pacientes.
Quizás el Covid-19 nos haga reflexionar más sobre este tema y así como sucedió con la telemedicina, se levanten barreras que obstruyen la investigación biomédica y el conocimiento científico.