Datos identificatorios de personas, anonimización de datos de salud y de-identificación

Lamentablemente aún seguimos viendo mensajes en redes sociales, presentaciones de proveedores o en diferentes medios digitales donde presentan un sistema de información clínico y no se oculta la información personal identificatoria de personas. Entendemos que en parte es porque se desconoce cuáles son los datos que identifican a una persona en un sistema, qué se considera información anónima y qué es la información de-identificada.

Este artículo se basa en los lineamientos de HIPAA, la ley de USA para protección de datos personales en salud.

Estos son los 18 Datos identificatorios de persona (paciente)

  1. Nombres y Apellidos
  2. Dirección postal
  3. Subdivisión geográfica menor a comuna
  4. Todos los elementos de fecha y hora (a excepción de año) directamente relacionadas al individuo, incluyendo fecha de nacimiento, de admisión, de alta, de fallecimiento, de examen; y todas las edades mayores a 89 y fechas relacionadas (incluyendo año) indicativos de tal edad, a menos que dichas fechas y elementos relacionados sean reemplazados por categorías (por ejemplo: edad 90 o más).
  5. Números de teléfono fijo y/o móvil
  6. Dirección de correo electrónico
  7. RUT / Pasaporte / Cédula de Identidad
  8. Número de atención (número de historia clínica-ficha, número de examen, número de cuenta corriente, número de atención, folio de atención…)
  9. Números de serie de dispositivos médicos implantados o utilizados por el paciente
  10. Identificador del seguro de salud del paciente
  11. Identificador de cuentas bancarias (número de cuenta)
  12. Identificado de vehículos, incluyendo números de serie de motor y patentes
  13. Direcciones web (URL donde trabaja)
  14. Direcciones IP
  15. Identificadores biométricos, incluyendo huellas dactilares y registros de voz
  16. Fotografías de rostro completo
  17. Cualquier número, código o característica que permita identificar al paciente en un sistema de información
  18. Números de licencias o certificados (licencia profesional del paciente)

Estos son los datos identificatorios de persona que están regulados en las leyes de HIPAA en USA y está penado por ley divulgar información de pacientes asociado a cualquiera de estos 18 datos identificatorios de persona (se conoce como información identificable). Aquí pueden leer la guía de métodos de de-identificación de HIPAA,

Los datos relacionados con los profesionales de la salud que atienden a los pacientes no son considerados datos identificatorios de pacientes y podrían estar presentes según se requiera en los procesos de anonimización y de-identificación.

Es muy importante destacar la importancia de eliminar o modificar las FECHAS en los registros clínicos. Por ejemplo, si yo le pregunto al equipo de Anatomía Patológica de la Clínica Alemana de quién es este resultado de biopsia, me van a decir que no tienen idea y que no pueden buscarlo (tendrían que leer las miles de biopsias creadas en el sistema en 2019 para encontrarla)

Pero si les entrego la fecha del informe me dirán que se tendrán que leer todos los informes de ese día (tedioso) pero que pueden encontrar de quién es mediante fuerza bruta.

La anonimización de fechas es un proceso que puede hacerse mediante el proceso de anonimización de fechas inteligente (ver más adelante).

Anonimización irreversible

El concepto de anonimizar significa que los datos clínicos (signos vitales, resultados de laboratorio, evoluciones en texto libre…) no contienen ninguno de los 18 datos identificatorios de personas, y que hacen imposible -o muy muy difícil-, la reconstitución de alguna relación entre los datos y el individuo al que la información hace alusión.

Se define como PERSONA IDENTIFICABLE a toda persona cuya identidad pueda determinarse, directa o indirectamente, mediante cualquier información referida a su identidad física, fisiológica, psíquica, económica, cultural o social (los 18 identificadores). Una persona física no se considerará identificable si dicha identificación requiere plazos o actividades desproporcionados (como por ejemplo revisar todas las biopsias de un año).

Por lo tanto, si los datos son anonimizados y a través de ellos no se puede identificar a la persona a la que pertenecen, quedan fuera de la aplicación del ámbito legal por cuanto no son considerados datos personales.

De-identificación o anonimización reversible

Son los datos clínicos (signos vitales, resultados de laboratorio, evoluciones en texto libre) que han sido anonimizados (se eliminaron los 18 datos identificatorios), pero que incluyen algún tipo de identificador codificado, haciendo posible saber que un set de datos corresponden al mismo individuo, sin identificar al individuo. Este formato es habitualmente usado por investigadores biomédicos con necesidad de recolectar y agrupar datos de un mismo individuo en el tiempo. En caso de ser necesario, el centro de explotación de datos es el único que tiene la facultad de vincular el identificador codificado al individuo aludido.

Es cuando agregamos, a la información anonimizada una etiqueta identificatoria que puede ser un número o un hash y que permite a quien gobierna los datos poder re-identificar a la persona si es requerido.

Si los datos de-identificados son entregados a un tercero sin capacidad que el tercero pueda identificar a las personas, son datos “anónimos” para este.

Datos fáciles y difíciles de anonimizar

  • Los datos que son muy fáciles de anonimizar son aquellos que están estructurados y que sabemos que nadie puede haber agregado algún dato identificatorio en texto libre (Ej: signos vitales, resultados de laboratorio, prescripciones…).
  • Los datos que contienen texto libre son los desafiantes. Ahí, un profesional podría ingresar alguno de los 18 datos identificatorios de persona, y son estos los más complejos de anonimizar. Para lograrlo hay que realizar Procesamiento del Lenguaje Natural.

Enmascarado inteligente de Fechas
Muchas veces, las fechas son importantes para los investigadores y no contar con estas es un problema. Para eso se puede hacer un enmascarado inteligente de fechas que permita controlar la anonimización y resolver el problema de investigación. Para ello se debe correr un algoritmo de identificación de fechas y horas y realizar un cálculo RANDOM de modificación inteligente (ej. Restar a cada fecha y hora un conjunto variable de días y minutos que haga imposible de trazar la información pero que aún mantenga la correlación temporal de la información).

Situación de hoy

Es necesario utilizar la información biomédica para el conocimiento de las enfermedades y el avance de la ciencia, y es un desafío constante el balance entre promover la investigación y mantener la privacidad y confidencialidad de la información.

En los momentos de crisis, como el que estamos viviendo, uno ve una cierta efervescencia en las ganas de compartir información de personas para investigar y encontrar soluciones. Hay cientos de pedidos a países para que liberen datos de pacientes para investigar los temas de Covid-19. Muchos de los que solicitan la liberación de datos clínicos (ej. Resultados de laboratorio de cada persona) son también los que en otros momentos ponen peros para disponibilizar datos anónimos o de-identificados de pacientes.

Quizás el Covid-19 nos haga reflexionar más sobre este tema y así como sucedió con la telemedicina, se levanten barreras que obstruyen la investigación biomédica y el conocimiento científico.

4 Me gusta

Es interesante leer esta decisión del Consejo de la Transparencia respecto a la protección de datos personales en salud y su anonimización.

https://jurisprudencia.cplt.cl/cplt/decision.php?id=CPLT000015393

Aquí se indica que para poder anonimizar con 99% la posibilidad de inferir información personal o sensible de una persona natural con los dato que tiene la Superintentendencia cruzándolos con otras bases de datos se requiere “tarjar”, o sea “eliminar” varios atributos en la entrega de información.

i) Contratos de salud: tarjadas las siguientes 17 columnas: código isapre; run del cotizante; identificación alternativa del cotizante; fecha suscripción del contrato; tipo de suscripción; fecha inicio vigencia beneficios contrato; tipo trabajador; cotización pactada; cotización total a pagar; fecha último movimiento; tipo movimiento; renuncia excedente; fecha termino contrato; fecha término beneficios; causa término contrato; rut agente de ventas; y número entidades pagadoras declaradas o ente pagador.

ii) Cotizantes y cargas de isapres: tarjadas las siguientes 14 columnas: comuna y región cotizante; código relación; tipo de beneficiario; 2 campos con run persona cotizante; código aseguradora; identificación alternativa cotizante; rut beneficiario; identificación alternativa beneficiario; fecha de nacimiento beneficiario; fecha de fallecimiento cotizante; sexo beneficiario y estado civil cotizante.

iii) Prestaciones de salud: tarjadas las siguientes 21 columnas: código aseguradora; tipo de registro; run beneficiario; sexo, edad y tipo de beneficiario; rut prestador; número programas médicos principal y complementario; código de prestación; pertenencia del código de prestación; cobertura de financiamiento de la prestación; fecha de bonificación; tipo de prestador; tipo de atención; horario otorgamiento prestación; ley de urgencia vital; número de bono de atención; número de reembolso; región y comuna del prestador.

iv) Egresos hospitalarios: tarjadas las siguientes 15 columna: código aseguradora; run beneficiario; sexo, edad y tipo de beneficiarios; rut prestador; numero programa médico; código diagnóstico principal y secundario; intervención quirúrgica; fecha ingreso y egreso; condición de egreso, días hospitalizados; tipo y comuna prestador.

v) Licencias médicas y subsidios por incapacidad: tarjadas las siguientes 32 columnas: código de aseguradora; run cotizante; fecha emisión licencia; número de días; fecha de inicio licencia; edad y sexo cotizante; actividad laboral y descripción ocupación del cotizante; tipo de licencia y de reposo; rut del profesional y tipo de profesional; número de días autorizados; código de diagnóstico; tipo de resolución; descripción del período; reposo autorizado; fecha de recepción a la seguradora; fecha resolución aseguradora; fecha de recepción del empleador; código de comuna y de región; calidad del trabajador; fecha inicio de pago; mes de concepción; otro diagnósticos; run hijo; rut empleador; color de la licencia continua; identificación de la licencia continua y fecha de nacimiento del hijo.

vi) Cotizaciones de salud: tarjadas las siguientes 13 columnas: código aseguradora; run persona cotizante; número planilla cotización; rut empleador; nombre o razón social ente pagador; comuna, ciudad y región ente pagador; cotización legal obligatoria y corregida; cotización pactada; cotización total y corregida y rut entidad pagadora subsidio.

Muchos de estos datos están en la normativa de HIPAA, pero otros, claramente no y tienen otros mecanismos para poder ser entregados de forma segura, mejor que “eliminarlos” y “no pasarlos”. Los métodos que pueden utilizarse son el k-anonimato donde hay atributos que se suprimen o se generalizan hasta que cada fila sea idénticas con al menos k-1 otras filas (básicamente busca que no existan filas que son idénticas. Esto es complejo cuando los sets de datos tienen muchos atributos (columnas).

¿Cómo se puede “generalizar” un código CIE o un código de una prestación? Se puede generalizar utilizando las categorías de ese CIE o las categorías de la prestación, de esta forma, al ir a un nivel superior más personas estarán incluidas.

1 me gusta