Reconocimiento no es comprensión

Los médicos todos los días lidiamos con la imperfección de la información. Leemos la evolución de un paciente y tomamos decisiones como “no voy a tomar en cuenta la hipótesis que registró el residente de 1er año de pediatría”, o “este dato que está en la HCE me parece que no es verdad, quizás es un error del típico copy&paste que se ha masificado”. Una máquina no puede hacer esto, y esta es una de las principales razones por las cuales la IA tiene limitada acción sobre los datos médicos.

Así como oír no es lo mismo que escuchar, tomar fotografías no es lo mismo que ver, y únicamente “viendo” podemos realmente entender. Fei-Fei Li TED2015

Al ser humano le tomó 540 millones de años desarrollar esta habilidad de “ver”, y la mayoría de ese desarrollo no está en el ojo, sino en la corteza visual del cerebro.

La visión nace en los ojos, pero en realidad ocurre en nuestro cerebro.

Con la IA queremos enseñar a las máquinas a ver tal como nosotros lo hacemos:

  • nombrar objetos
  • identificar personas
  • inferir la geometría 3D de las cosas
  • entender relaciones, emociones, acciones e intenciones

Cuando un humano ve algo, teje historias completas de la gente, los lugares y las cosas.

Nadie le dice a un niño cómo ver, especialmente en los primeros años. Ellos aprenden a través de ejemplos y experiencias del mundo real. Si uno considera los ojos de un niño como una cámara biológica, toman 1 foto cada 200 milisegundos (el tiempo promedio en en el que un ojo hace un movimiento). Así que para la edad de 3, un niño habrá visto cientos de millones de fotografías del mundo real, es un inmenso set de entrenamiento.

Los niños aprenden de forma muy rápida, y con pocos ejemplos logran adquirir sentido común, aprendiendo cosas nuevas no antes experimentadas sin mayores complicaciones.

En 2007, un grupo de investigadores de la Universidad de Princeton lanzaron el proyecto IMAGENET que constaba en etiquetar imágenes tomadas de internet a través de crowdsourcing (usando la plataforma Amazon Mechanical Turk le pagaron a 48.940 personas de 167 países para que etiqueten 1000 millones de imágenes.

En 2009 IMAGENET tenía 15.000.000 imágenes etiquetadas en 22.000 categorías. Por ejemplo tenían 62.000 fotos de gatos en cualquier pose, color o apariencia. Y abrieron esa base de datos de forma gratuita para investigadores.

http://image-net.org/

Con la base de IMAGENET se crearon otros algoritmos de ML que intentan poner en palabras lo que está en la foto, para que se asemeje más a lo que hacen los humanos cuando describen una foto. No obstante, se cree que la tecnología de DEEP LEARNING llegó a su máximo y no permite ir más allá. El sistema logra reconocer objetos e intenta “ponerle palabras de interpretación”, pero las máquinas son muy malas interpretando el contexto.

1 me gusta