Correlación no implica causalidad

Estamos en el hervor de las correlaciones/asociaciones. Queremos usar toda la información que tenemos disponible en nuestros sistemas para hacer predicciones… y de vez en cuando, confundimos esa correlación con causalidad (cuando aumenta A, aumenta B, entonces A causa B).

Si se proporcionan suficientes datos, es posible encontrar cosas que se correlacionan incluso cuando no deberían. El método se llama a menudo “dragado de datos”. El dragado de datos es una técnica utilizada para encontrar algo que se correlaciona con una variable comparándola con cientos de otras variables.

En medicina, esto es riesgoso, porque una predicción de A entonces B, puede hacer creer a un clínico que tiene que hacer X, Y o Z… y eso puede ser peor. Es por ello, que para evaluar causalidad se hacen costosos estudios (los más importantes, los ensayos clínicos randomizados).

El libro Spurious Correlations presenta excelentes ejemplos para reirnos sobre correlaciones que existen pero que son un disparate. Les presento las que más me gustaron.

La fuerza de una correlación sigue esta tabla.

Valor Fuerza
100% Correlación perfecta
80%-99% Correlación muy alta
60%-79% Correlación alta
40%-59% Correlación moderada
20%-39% Correlación baja
1%-19% Correlación muy baja
0% Correlación nula

Satisfacción de los clientes de MCDonald´s CORRELACIONADO CON Asfixia por obstrucción respiratoria con alimentos. A medida que aumenta la satisfacción de los clientes de McDonald´s aumentan las muertes por obstrucción con alimentos. ¿Serán los Nuggets?

Muertes debido a relámpagos CORRELACIONADO CON consumo de carne. Créase o no, comer carne tiene altísimo riesgo de morir electrocutado por un relámpago.

Envío de SPAM correo electrónico CORRELACIONADO CON soja genéticamente modificada. Una razón más para no consumir soja modificada.

Consumo de helado CORRELACIONADO CON lo que gana Brad Pitt.

Los datos se pueden obtener en:
http://tylervigen.com/sources

2 me gusta