Datos identificatorios de personas, anonimización de datos de salud y de-identificación

Lamentablemente aún seguimos viendo mensajes en redes sociales, presentaciones de proveedores o en diferentes medios digitales donde presentan un sistema de información clínico y no se oculta la información personal identificatoria de personas. Entendemos que en parte es porque se desconoce cuáles son los datos que identifican a una persona en un sistema, qué se considera información anónima y qué es la información de-identificada.

Este artículo se basa en los lineamientos de HIPAA, la ley de USA para protección de datos personales en salud.

Estos son los 18 Datos identificatorios de persona (paciente)

  1. Nombres y Apellidos
  2. Dirección postal
  3. Subdivisión geográfica menor a comuna
  4. Todos los elementos de fecha y hora (a excepción de año) directamente relacionadas al individuo, incluyendo fecha de nacimiento, de admisión, de alta, de fallecimiento, de examen; y todas las edades mayores a 89 y fechas relacionadas (incluyendo año) indicativos de tal edad, a menos que dichas fechas y elementos relacionados sean reemplazados por categorías (por ejemplo: edad 90 o más).
  5. Números de teléfono fijo y/o móvil
  6. Dirección de correo electrónico
  7. RUT / Pasaporte / Cédula de Identidad
  8. Número de atención (número de historia clínica-ficha, número de examen, número de cuenta corriente, número de atención, folio de atención…)
  9. Números de serie de dispositivos médicos implantados o utilizados por el paciente
  10. Identificador del seguro de salud del paciente
  11. Identificador de cuentas bancarias (número de cuenta)
  12. Identificado de vehículos, incluyendo números de serie de motor y patentes
  13. Direcciones web (URL donde trabaja)
  14. Direcciones IP
  15. Identificadores biométricos, incluyendo huellas dactilares y registros de voz
  16. Fotografías de rostro completo
  17. Cualquier número, código o característica que permita identificar al paciente en un sistema de información
  18. Números de licencias o certificados (licencia profesional del paciente)

Estos son los datos identificatorios de persona que están regulados en las leyes de HIPAA en USA y está penado por ley divulgar información de pacientes asociado a cualquiera de estos 18 datos identificatorios de persona (se conoce como información identificable). Aquí pueden leer la guía de métodos de de-identificación de HIPAA,

Los datos relacionados con los profesionales de la salud que atienden a los pacientes no son considerados datos identificatorios de pacientes y podrían estar presentes según se requiera en los procesos de anonimización y de-identificación.

Es muy importante destacar la importancia de eliminar o modificar las FECHAS en los registros clínicos. Por ejemplo, si yo le pregunto al equipo de Anatomía Patológica de la Clínica Alemana de quién es este resultado de biopsia, me van a decir que no tienen idea y que no pueden buscarlo (tendrían que leer las miles de biopsias creadas en el sistema en 2019 para encontrarla)

Pero si les entrego la fecha del informe me dirán que se tendrán que leer todos los informes de ese día (tedioso) pero que pueden encontrar de quién es mediante fuerza bruta.

La anonimización de fechas es un proceso que puede hacerse mediante el proceso de anonimización de fechas inteligente (ver más adelante).

Anonimización irreversible

El concepto de anonimizar significa que los datos clínicos (signos vitales, resultados de laboratorio, evoluciones en texto libre…) no contienen ninguno de los 18 datos identificatorios de personas, y que hacen imposible -o muy muy difícil-, la reconstitución de alguna relación entre los datos y el individuo al que la información hace alusión.

Se define como PERSONA IDENTIFICABLE a toda persona cuya identidad pueda determinarse, directa o indirectamente, mediante cualquier información referida a su identidad física, fisiológica, psíquica, económica, cultural o social (los 18 identificadores). Una persona física no se considerará identificable si dicha identificación requiere plazos o actividades desproporcionados (como por ejemplo revisar todas las biopsias de un año).

Por lo tanto, si los datos son anonimizados y a través de ellos no se puede identificar a la persona a la que pertenecen, quedan fuera de la aplicación del ámbito legal por cuanto no son considerados datos personales.

De-identificación o anonimización reversible

Son los datos clínicos (signos vitales, resultados de laboratorio, evoluciones en texto libre) que han sido anonimizados (se eliminaron los 18 datos identificatorios), pero que incluyen algún tipo de identificador codificado, haciendo posible saber que un set de datos corresponden al mismo individuo, sin identificar al individuo. Este formato es habitualmente usado por investigadores biomédicos con necesidad de recolectar y agrupar datos de un mismo individuo en el tiempo. En caso de ser necesario, el centro de explotación de datos es el único que tiene la facultad de vincular el identificador codificado al individuo aludido.

Es cuando agregamos, a la información anonimizada una etiqueta identificatoria que puede ser un número o un hash y que permite a quien gobierna los datos poder re-identificar a la persona si es requerido.

Si los datos de-identificados son entregados a un tercero sin capacidad que el tercero pueda identificar a las personas, son datos “anónimos” para este.

Datos fáciles y difíciles de anonimizar

  • Los datos que son muy fáciles de anonimizar son aquellos que están estructurados y que sabemos que nadie puede haber agregado algún dato identificatorio en texto libre (Ej: signos vitales, resultados de laboratorio, prescripciones…).
  • Los datos que contienen texto libre son los desafiantes. Ahí, un profesional podría ingresar alguno de los 18 datos identificatorios de persona, y son estos los más complejos de anonimizar. Para lograrlo hay que realizar Procesamiento del Lenguaje Natural.

Enmascarado inteligente de Fechas
Muchas veces, las fechas son importantes para los investigadores y no contar con estas es un problema. Para eso se puede hacer un enmascarado inteligente de fechas que permita controlar la anonimización y resolver el problema de investigación. Para ello se debe correr un algoritmo de identificación de fechas y horas y realizar un cálculo RANDOM de modificación inteligente (ej. Restar a cada fecha y hora un conjunto variable de días y minutos que haga imposible de trazar la información pero que aún mantenga la correlación temporal de la información).

Situación de hoy

Es necesario utilizar la información biomédica para el conocimiento de las enfermedades y el avance de la ciencia, y es un desafío constante el balance entre promover la investigación y mantener la privacidad y confidencialidad de la información.

En los momentos de crisis, como el que estamos viviendo, uno ve una cierta efervescencia en las ganas de compartir información de personas para investigar y encontrar soluciones. Hay cientos de pedidos a países para que liberen datos de pacientes para investigar los temas de Covid-19. Muchos de los que solicitan la liberación de datos clínicos (ej. Resultados de laboratorio de cada persona) son también los que en otros momentos ponen peros para disponibilizar datos anónimos o de-identificados de pacientes.

Quizás el Covid-19 nos haga reflexionar más sobre este tema y así como sucedió con la telemedicina, se levanten barreras que obstruyen la investigación biomédica y el conocimiento científico.

4 Me gusta

Es interesante leer esta decisión del Consejo de la Transparencia respecto a la protección de datos personales en salud y su anonimización.

https://jurisprudencia.cplt.cl/cplt/decision.php?id=CPLT000015393

Aquí se indica que para poder anonimizar con 99% la posibilidad de inferir información personal o sensible de una persona natural con los dato que tiene la Superintentendencia cruzándolos con otras bases de datos se requiere “tarjar”, o sea “eliminar” varios atributos en la entrega de información.

i) Contratos de salud: tarjadas las siguientes 17 columnas: código isapre; run del cotizante; identificación alternativa del cotizante; fecha suscripción del contrato; tipo de suscripción; fecha inicio vigencia beneficios contrato; tipo trabajador; cotización pactada; cotización total a pagar; fecha último movimiento; tipo movimiento; renuncia excedente; fecha termino contrato; fecha término beneficios; causa término contrato; rut agente de ventas; y número entidades pagadoras declaradas o ente pagador.

ii) Cotizantes y cargas de isapres: tarjadas las siguientes 14 columnas: comuna y región cotizante; código relación; tipo de beneficiario; 2 campos con run persona cotizante; código aseguradora; identificación alternativa cotizante; rut beneficiario; identificación alternativa beneficiario; fecha de nacimiento beneficiario; fecha de fallecimiento cotizante; sexo beneficiario y estado civil cotizante.

iii) Prestaciones de salud: tarjadas las siguientes 21 columnas: código aseguradora; tipo de registro; run beneficiario; sexo, edad y tipo de beneficiario; rut prestador; número programas médicos principal y complementario; código de prestación; pertenencia del código de prestación; cobertura de financiamiento de la prestación; fecha de bonificación; tipo de prestador; tipo de atención; horario otorgamiento prestación; ley de urgencia vital; número de bono de atención; número de reembolso; región y comuna del prestador.

iv) Egresos hospitalarios: tarjadas las siguientes 15 columna: código aseguradora; run beneficiario; sexo, edad y tipo de beneficiarios; rut prestador; numero programa médico; código diagnóstico principal y secundario; intervención quirúrgica; fecha ingreso y egreso; condición de egreso, días hospitalizados; tipo y comuna prestador.

v) Licencias médicas y subsidios por incapacidad: tarjadas las siguientes 32 columnas: código de aseguradora; run cotizante; fecha emisión licencia; número de días; fecha de inicio licencia; edad y sexo cotizante; actividad laboral y descripción ocupación del cotizante; tipo de licencia y de reposo; rut del profesional y tipo de profesional; número de días autorizados; código de diagnóstico; tipo de resolución; descripción del período; reposo autorizado; fecha de recepción a la seguradora; fecha resolución aseguradora; fecha de recepción del empleador; código de comuna y de región; calidad del trabajador; fecha inicio de pago; mes de concepción; otro diagnósticos; run hijo; rut empleador; color de la licencia continua; identificación de la licencia continua y fecha de nacimiento del hijo.

vi) Cotizaciones de salud: tarjadas las siguientes 13 columnas: código aseguradora; run persona cotizante; número planilla cotización; rut empleador; nombre o razón social ente pagador; comuna, ciudad y región ente pagador; cotización legal obligatoria y corregida; cotización pactada; cotización total y corregida y rut entidad pagadora subsidio.

Muchos de estos datos están en la normativa de HIPAA, pero otros, claramente no y tienen otros mecanismos para poder ser entregados de forma segura, mejor que “eliminarlos” y “no pasarlos”. Los métodos que pueden utilizarse son el k-anonimato donde hay atributos que se suprimen o se generalizan hasta que cada fila sea idénticas con al menos k-1 otras filas (básicamente busca que no existan filas que son idénticas. Esto es complejo cuando los sets de datos tienen muchos atributos (columnas).

¿Cómo se puede “generalizar” un código CIE o un código de una prestación? Se puede generalizar utilizando las categorías de ese CIE o las categorías de la prestación, de esta forma, al ir a un nivel superior más personas estarán incluidas.

1 me gusta

Hola, trabajo en hospitalización domiciliaria y me interesa desarrollar los temas de tele medicina para facilitar las atenciones y contribuir a un entrono más seguro, en lo que se refiere a la pandemia Covid. SIn embargo, me alarma que se están implementando una serie de plataformas de tele medicina (estoy en 3, al menos), sin la debida protección de datos sensibles de la vida privada. Vi en twitter el hilo respecto a que el 60% de los datos de salud de las personas vive fuera de los sistemas de información de salud. Creo que es una realidad alarmante, pero no para el 80% de la población. Ya que el estudio en que se base es de USA, Boston, y primero habría que estandarizar el perfil de la población en el que se aplicó. Dudo mucho que sea como la gran parte de la población chilena. Tal vez para el 20% ABC1 que va a la clínica Alemana o a CLC u otras, sí. De todas formas es alarmante y me parece un pésimo ejemplo, del que ojalá nos alejemos. Estoy realizando un diplomado francés de telemedicina y el marco legal para la la protección de datos nos lleva años luz. Creo que a ese estándar debemos orientarnos.

Cordial saludo Monica.

Muy cierta tu apreciación, el reto más sensible es garantizar la proteccion de datos.
Estoy en el grupo de expertos de Telesalud del ministerio de Salud y te puedo contar que el Ministerio basa su esquema de seguridad informatica en el modelo Frances.
Sin embargo hay personas que consideran que un modelo tan escricto de seguridad informatica restringe el avances del desarrollo de la Salud digital.
Veremos que pasa en cada uno de los estremos y tomaremos nuestra decision.
Desde el punto de visita de profesional de la Salud, donde uno trabaja en la plataforma que le indican, entraria una cuestion etica, ¿trabajo en esta plataforma que se, no maneja la Seguridad informatica?

Muchas gracias por compartir tus experiencias e inquietudes.

Nandy Rodriguez

Hola a todos:

Hace unos días vi una publicación que un SS implementó un portal de pacientes, al cual puedes acceder con la clave única del registro civil.

Donde me queda la duda es que ingrese y tengo un perfil en el portal, sin registrar atenciones en ninguno de los centros.

Debería tener un concentimiento para que tomen mi información desde el registro civil?
Entrego ese consentimiento al ingresar con mi usuario y clave?

Agradeceré sus comentarios

Ricardo Rubilar S
Timed Chile SA

Buen día Nandy, gusto en conocerla a través de este foro.
Creo que las peores epidemias son las que construimos nosotros mism@s seres humanos hacia nosotr@s mismos. Sea por hacer o por dejar de hacer. Ya hemos visto que paralela a la pandemia biológica de este virus, se ha ido acrecentando una de salud mental. Si seguimos la nuestra historia como especia, en otras pandemias, "“Las epidemias sacan lo mejor y lo peor de la humanidad”. En ese sentido, y ahora más que nunca, en el contexto de la globalización, de la posibilidad electrónica de divulgar información, creo fechacientemente en la protección a lo íntimo. Si no, qué humanidad nos quedaría por no traducir en datos electrónicos y/o informáticos? Finalmente, todo lo que sea ‘investigación’ o ‘desarrollo’ de una ciencia o disciplina, obedece a un constructo de ideas que generalmente, además se circunscribe en un determinado paradigma. En fin, no es la persona tangible, concreta y vivencial. Cederemos nuestra intimidad a un conjunto de ideas, sólo para que éstas de desarrollen? SI creo en la investigación y sí creo en el desarrollo, con el respeto y cuidado por la intimidad.… aunque eso tome más tiempo, inversión y energía. Por eso " “Cualquier medida tomada ante una pandemia parecerá exagerada . Cualquier medida tomada después parecerá insuficiente ” Como creo que la pandemia de datos globales sin protección a la vida privada puede sacar lo peor de nosotros… es fundamental proteger nuestro ser más íntimo, nuestra vida privada. AL costo que eso signifique, y aunque implique ‘una restricción’ en los ‘avances del desarrollo de la Salud digital’. Finalmente somos seres humanos, de carne y hueso, y para algunos alma y espíritu. No somos seres digitales.
No es casualidad de ahora Francia esté levantando los confinamientos, que haya detenido o enlentecido más eficientemente la pandemia, que haya congelado los cobros de servicios básicos y que considere su presidente que ‘Lo que ha revelado esta pandemia es que la salud gratuita, nuestro estado de bienestar, no son costos o cargas, sino bienes preciosos’.
Cómo podría contactarla a Ud. Nandy? Estoy realizando mi memoria/tesis, comparando el marco legal francés vs chileno en lo referente a Tele Medicina, y me vendía bien una mano. Mi mail, si le interesa o quiere es monillan@gmail.com

Hola, Ricardo. Concuerdo en que sí debería existir ese consentimiento. AL menos así se hace en Francia para su aplicación Ma Santé. Y a esto me refiero a que en Chile permitimos mucho sin conocer los alcances y violaciones que podría implicar. No hace poco, un par de meses atrás ya se denunció que cualquiera podía crearse una clave única en el registro civil chileno haciéndose pasar por otra persona. Esto permitiría acceder a información sensible y privada también. Usando la fábula de la liebre y la tortuga, prefiero ser como esta última, un poco más lenta, persistente y cuidadosa. El viaje para llegar a buen fin, no tiene para qué ser más rápido, ni tener interrupciones por períodos de tiempo como lo hace la liebre (y como, ciertamente desde agosto 2019 lo está haciendo Chile con el marco jurídico de la Tele Medicina). Sólo tiene que se persistente, permanente y cuidadoso.
Saludos
Mónica Naveillan

1 me gusta

Hola Mónica! se lee muy interesante este trabajo. Sería genial poder leerlo cuando se publique.

Saludos!

Ojalà lo logre. Actualmente estoy medio ‘trabada’. Entre no encontrar mucha informaciòn y la voràgine de la pandemia. Tuve que suspender viaje a Francia para uno de los mòdulos, no he podido hacer mi estadìa, etc.

Bueno esto pasa porque se han ido sumando personas a la salud digital sin conocimiento, se han autorizado acciones en libre eleccion sin un profesional que respalde al usuario se confunde teleasistencia con telemedicina, y se suma el prestamo de claves unicas…cero etica
En pandemia se ha mal usado para cumplir metas …y el objetivo nunca fue este…

Mónica, primero que todo “Se tenía que decir, y de dijo”!. Muy bueno tu punto. concuerdo con casi todo lo que comentas, menos en lo de la tortuga, ya que se nos van pasando los años y décadas inclusive y los sistemas no se implementan. No hay presupuesto, ni para sistemas, ni para capacitación, ni para contrataciones, y lo poco que se logra hacer pésimamente implementado, en fin una chacra. Lamentablemente en tecnologías de información los sistemas se van complejizando día a día, dejando obsoleto los conocimientos en cosa de meses, si no existen programas fuertes de mantenimiento de tecnología el funcionamiento tortuga puede ser eterno, y en la analogía finalmente la tortuga le gana a la liebre, buena estrategia!, pero con el funcionamiento actual no le estamos ganando a nadie!, mal.

1 me gusta

Joanna y Eduardo, muchas gracias por sus opiniones. Me ayuda a clarifircarme en todo. Y bueno, el ejemplo quizás fue un poco extremo. Aunque escribí ‘un poco más lenta’. Las tortugas no son absolutamente lentas… y caminan derecho hacia su objetivo. Las liebres pierden energía dando saltos diagonales. Ahora, podríamos ponerle un monopatín a la tortuga (odio decir scooter), o bicicleta? … Sii? De todas formas mantendría su espíritu directo y persistente y su capacidad de acumular experiencia. En lo que expones del sistema actual Eduardo, más que ver con la tortuga, tiene que ver con el contexto. Y es precisamente lo que señala Joanna y también tú… el objetivo, qué hay detrás de ese ‘no presupuesto’ y de ese ‘funcionamiento actual’… una falta de visión valórica - técnico política?