¿Elon Musk tiene COVID19? Veamos el Teorema de Bayes

Elon Musk

Como bien debes saber si has escuchado las noticias, Elon Musk ha dicho en su cuenta de Twitter que se ha hecho 4 test rápidos para detectar COVID-19 porque se esta empezando a sentir agotado.

Según él mismo, el primer test dio positivo, el segundo y tercero negativos, y el cuarto positivo.

¿Esto significa que hay un 50% de probabilidad de que Elon Musk tenga COVID-19?

Pues la respuesta es que no, la probabilidad no es del 50%. De hecho, te voy a enseñar cómo calcular esa probabilidad utilizando el importantísimo Teorema de Bayes.

Conceptos relevantes

Veremos tres conceptos muy relacionados con la Estadística y el análisis de datos. Primero veremos la sensibilidad y la especificidad, que son dos formas de caracterizar la precisión de un test. También tocaremos el Teorema de Bayes. Una parte esencial de la Estadística, y del Machine Learning. Y también veremos la idea de que las probabilidades a posteriori pueden usarse como probabilidades a priori cuando se coleccionan más datos o se tienen nuevas evidencias. Lo cual permite a los modelos bayesianos ser lo que se conoce como online learners, es decir modelos de aprendizaje que se van actualizando.

Variables

Entonces, primero vamos a pensar qué nos interesa realmente en este problema y vamos a definirlo con variables. Nos interesa saber si Elon tiene coronavirus en base a cierta evidencia que conocemos (donde se incluyen los resultados de los 4 tests).

Podemos definir una variable aleatoria X con distribución Bernoulli que tome el valor verdadero (X=1) cuando sucede lo que nos interesa saber, es decir, que Elon tiene COVID, y valor cero (X=0) cuando sucede lo contrario, es decir, que Elon no tiene COVID.

Vamos a definir como T la variable que mide el resultado de una prueba rápida para detectar coronavirus.

Sabemos que Elon se realizó 4 pruebas T1, T2, T3 y T4. Sabemos por la información que proporciona él mismo que la primera fue positiva, las dos siguientes negativas y la última positiva. Estos resultados son los que van a condicionar la probabilidad que queremos hallar pues constituyen la información que tenemos disponible y sabemos con seguridad que ha sucedido.

Sensibilidad y Especificidad

Sabemos, por los datos reportados por la compañía dueña de esta máquina de pruebas rápidas, que estas pruebas tienen una especificidad del 99.5% y una sensibilidad del 84%.

Pero, ¿qué significan estos números?

La sensibilidad es la probabilidad de que el test sea positivo dado que Elon tiene el virus (True Positive Rate TPR):

P(T=1│X=1) = 84% =0.84

La especificidad es la probabilidad de que el test sea negativo dado que Elon no tiene el virus (True Negative Rate TNR):

P(T=0│X=0) = 99.5% =0.995

Prior

Otra cantidad que nos interesa es la probabilidad a priori o prior. Esta es la probabilidad de que Elon Musk tenga COVID sin ningún conocimiento sobre ningún test que se haya hecho. Una suposición razonable sería suponer que esta probabilidad es la misma para todo el mundo, para cualquier persona dentro de la población, y esto se llama prevalencia (o predominio). El problema es que este número no lo sabemos en realidad, sabemos por ejemplo el número de casos que han sido positivos, pero también estas personas luego se recuperan, y también está el caso de los asintomáticos que tienen el virus pero no se han hecho la prueba. Entonces este numero realmente se podría interpretar como un hiperparámetro que podríamos variar y en dependencia de su valor el resultado puede cambiar.

En nuestro caso, vamos a adoptar una prevalencia del 0.6%, un valor bajo, que significaría en nuestra notación que la probabilidad de que Elon tenga el virus sin tener ninguna información disponible es P(X=1)=0.6%=0.006.

¿Qué queremos saber?

Recordemos que lo que queremos saber es si Elon tiene COVID dados los resultados de las pruebas que se hizo. Y para ello vamos a usar el conocido Teorema de Bayes:

Ahora bien, lo que hace a este problema un poco más complicado es que hay 4 tests. La estrategia que vamos a seguir es la siguiente. Vamos a considerar la probabilidad a posteriori que hallamos en el primer paso como una probabilidad a priori en el segundo paso. Y así sucesivamente hasta el último paso.

Es decir, primero solo tenemos en cuenta el resultado de la primera prueba (T1) que dio positivo, y dada esa condición hallamos la probabilidad de que Elon tenga COVID, usando Bayes. Luego esta probabilidad la tomamos como información a priori para el segundo paso, para hallar la probabilidad de que Elon tenga el virus, dado que ahora sabemos que en la segunda prueba dio negativo. Y así sucesivamente hasta el cuarto paso, donde calcularemos la probabilidad de que tenga COVID dados los resultados de las 4 pruebas.

Empezamos por el primer paso, la probabilidad de que tenga el virus dado el valor de la primera prueba, que fue positiva:

En el numerador tenemos la sensibilidad (TPR) de la que hablamos anteriormente, y la prevalencia. Son datos que ya sabemos.

Para el denominador tenemos que calcular la probabilidad marginal de que T1=1, por el Teorema de la Probabilidad Total, es decir que tenemos que condicionar a ambas opciones: X=1 y X=0.

Hay dos probabilidades que no sabemos de antemano pero las podemos calcular, que son la probabilidad de que el test del virus de positivo cuando realmente Elon no está enfermo, es decir, un falso positivo, que se puede calcular como 1-Especificidad. Y la otra es la probabilidad de que Elon no tenga el virus sin saber ninguna información, que es igual al complemento de que lo tenga:

Como podemos observar el resultado que obtenemos es que hay un 50% de probabilidad de que realmente tengas el virus si el test sale positivo, es decir, es como tirar una moneda al aire. Pero nosotros tenemos más información.

Para el paso 2, vamos a considerar la probabilidad a posteriori calculada en el paso 1 como una información que tenemos a priori para el paso 2 y vamos a cambiar la notación para no tener que escribir la parte de la condicional:

En el numerador tenemos una probabilidad de un falso negativo que podemos hallar como 1-Verdadero positivo=1-Sensibilidad.

Y además tenemos el complemento de la probabilidad de que Elon tenga el virus sabiendo que la primera prueba es positiva (la del primer paso), que podemos hallar como 1-P1 (X=1):

Con esto obtenemos que finalmente hay un 14% ahora de que Elon tenga el virus, sabiendo el resultado de esas dos primeras pruebas.

Para el paso 2 y 3 el procedimiento es análogo y los resultados son los siguientes:

Si dos de tres test son negativos, la probabilidad es muy baja (2.6%), sin embargo el resultado final es una probabilidad muy alta (81.5%). Aunque tengamos un número igual de test positivos y negativos, la probabilidad no es del 50%, como mucha gente puede pensar, sino bastante más alta.

Así que aquí vemos una enseñanza muy común y muy interesante del campo de la Estadística y del Machine Learning, una precisión alta como en este caso, que tenemos una especificidad de más del 99% y una sensibilidad de más del 80%, muchas veces se asume que es muy alta y que los resultados no van a variar mucho. Sin embargo, hemos visto cómo las probabilidades a posteriori pueden cambiar drásticamente, en este caso la probabilidad de que realmente tuviera el virus fue disminuyendo hasta el momento en el que se hizo el 4to test que fue donde subió. Del 3er test al 4to test, pasamos de estar muy seguros de que realmente no tendría el virus, a estar bastante seguros de que realmente sí lo tiene.

Entonces, Elon, después de los resultados de tus 4 tests, según nuestro amigo Bayes, podemos decir que tienes un 81.5% de probabilidades de tener el coronavirus.

Espero que os haya gustado esta interesante aplicación del Teorema de Bayes. Si te interesa la Estadística y el Análisis de datos, puedes echar un ojo a mi ruta de aprendizaje:

Y aquí te dejo el vídeo donde te explico todos los cálculos que hemos hecho en este post, por si no has entendido algo:

PhD in Statistics, postdoc at IMDEA Networks Institute in Madrid. Passionate about Data Analysis and Artificial Intelligence.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store