Machine Learning Probabilístico

Existen muchos tipos de modelos generativos. A alto nivel podemos distinguir entre:

Modelos gráficos probabilísticos (PGM, Probabilistic Graphical Models): asignan un conjunto de variables latentes interconectadas $z_1, \dots, z_L$ a las variables observadas $x_1, \dots, x_D$ mediante mapeos sencillos, a menudo lineales.
Modelos generativos profundos (DGM, Deep Generative Models): basados en redes neuronales profundas que aprenden a mapear los datos observados $x$ a una representación en un vector latente $z$ .

Por supuesto, son posibles muchos híbridos. De aquí en adelante nos centraremos en los DGM.

Los principales tipos de DGM son: los Variational Autoencoders (VAE), las redes generativas adversarias (GAN), los energy based models (EBM), los AutoRegressive Models (ARM), los flow-based models y los diffusion models.

Se puede clasificar estos modelos en función de los siguientes criterios:

Density: modelos que pueden estimar la función de densidad de probabilidad $p(x)$ . Por ejemplo, las redes GAN modelan la distribución de los datos de forma implícita, por lo que no pueden.
Sampling: modelos que pueden generar nuevas muestras a partir de la distribución modelada. Modelos como VAEs y GANs admiten un muestreo rápido; sin embargo, ARMs, modelos diffusion y normalizing flows son lentos para el muestreo.
Training: ¿qué tipo de método se utiliza para estimar los parámetros? Para algunos modelos (como AR y flows), se puede realizar una estimación exacta de la maximum likelihood estimation (MLE). Para otros modelos no es tan sencillo. Por ejemplo, en el caso de los VAE se maximiza un límite inferior de la likelihood; en el caso de las GAN, que se utiliza un entrenamiento min-max, puede ser inestable y no existe una función objetivo clara que controlar.
Latents: ¿usa el modelo un vector latente $z$ para generar $x$ ? Y, si es así, ¿tiene el mismo tamaño que $x$ o es una representación comprimida? Por ejemplo, los ARM no utilizan representaciones latentes; los flows y diffusion sí, pero no son representaciones comprimidas.
Arquitectura: ¿qué tipo de red neuronal se puede utilizar? ¿Existen restricciones? En el caso de los flows, por ejemplo, sólo se pueden utilizar redes neuronales invertibles en las que cada capa tenga un jacobiano manejable.

Aquí un resumen rápido de cómo funcionan los principales modelos. Si es la primera vez que ves este diagrama no te procupes si no lo entiendes. Te recomiendo volver según vayamos avanzando, ya verás como lo vas pillando.

En los próximos capítulos vamos a hacer uso de notación probabilística. Si vas sobrado con esto entonces puedes saltar directamente al primer capítulo. Si no, en lo que queda de artículo vamos a hacer un repaso rápido de probabilidad.

Probabilidad

Existen dos interpretaciones diferentes de probabilidad:

Frecuentista: las probabilidades representan frecuencias de sucesos que pueden ocurrir varias veces.

Ejemplo: probabilidad de que salga 6 si tiro un dado 600 veces. Se espera que el número 6 aparezca aproximadamente 100 veces. Se asume que las condiciones son estables y que, si repites el experimento muchas veces, el resultado convergerá hacia una frecuencia fija (en este caso 1/6).
Bayesiana: la probabilidad se utiliza para cuantificar la incertidumbre/ignorancia sobre algo. La interpretación bayesiana puede utilizarse para modelar la incertidumbre sobre sucesos puntuales que no tienen frecuencias a largo plazo.

Ejemplo: digamos que queremos calcular la probabilidad de que el casquete polar se derrita en 2030. Este suceso ocurrirá o no, pero no puede ocurrir repetidamente. No obstante, deberíamos ser capaces de cuantificar la incertidumbre sobre este suceso.

De aquí en adelante adoptaremos la interpretación bayesiana. Afortunadamente, las reglas básicas de la teoría de la probabilidad son las mismas, independientemente de la interpretación que se adopte.

Tipos de incertidumbre

La incertidumbre en las predicciones puede surgir fundamentalmente por dos razones:

Aleatoric uncertainty: surge de la variabilidad intrínseca de los datos.

Ejemplo: lanzar una moneda de manera uniforme. Puedes medir la fuerza con la que lanzas, la resistencia del aire y la gravedad, pero siempre habrá fluctuaciones microscópicas incontrolables. No se reduce con más datos o mejores modelos.
Epistemic uncertainty: surge de nuestra ignorancia o falta de información sobre un sistema que, en teoría, es determinista (si tuviéramos toda la información, podríamos saber el resultado).

Ejemplo: predecir si un paciente tiene una enfermedad basándose en un síntoma inicial. El paciente tiene o no tiene la enfermedad. No es una cuestión de azar, es una cuestión de datos. Se reduce recopilando más datos (biopsias, escáneres, etc).

Reglas básicas

Probabilidad de un evento

Definimos un evento $A$ como un estado que se cumple o no. Por ejemplo, $A$ puede ser el suceso "lloverá mañana" o "llovió ayer". La expresión $\Pr(A)$ denota la probabilidad con la que se cree que el suceso $A$ es cierto. Exigimos que $0 \leq \Pr(A) \leq 1$ , donde $\Pr(A) = 0$ significa que el suceso no ocurrirá y $\Pr(A) = 1$ significa que sí ocurrirá.

Variables aleatorias

Supongamos que $X$ representa alguna cantidad desconocida, como la cara en la que caerá un dado al lanzarlo. Si el valor de $X$ es desconocido y/o puede cambiar, lo llamamos variable aleatoria. El conjunto de valores posibles, denotado $X$ , se conoce como espacio muestral o espacio de estados. Un suceso es un conjunto de resultados de un espacio muestral determinado.

Por ejemplo, si $X$ representa la cara de un dado, $X = \{1, 2, \dots, 6\}$ . El suceso "ver un 1" se denota $X = 1$ , el suceso "ver un número impar" se denota $X \in \{1, 3, 5\}$ , el suceso "ver un número entre 1 y 3" se denota $1 \leq X \leq 3$ , etc.

Variables aleatorias discretas

Si el espacio muestral $X$ se puede contar (es finito o contablemente infinito), $X$ se denomina variable aleatoria discreta. Ejemplo: lanzar un dado, el número de clientes que entran a una tienda, el número de caras en 5 lanzamientos de moneda...

La función que describe la distribución de probabilidad de variables aleatorias discretas se llama probability mass function o pmf:

p(x) = \Pr(X = x).

, donde $x$ es un valor posible dentro del espacio muestral.

Variables aleatorias continuas

Si $X \in \mathbb{R}$ , se denomina variable aleatoria continua. Ejemplo: el tiempo exacto que tardó algo, el peso, la temperatura...

En este caso, no se puede crear un conjunto finito de los distintos valores posibles que puede tomar la variable. Sin embargo, sí existe un número contable de intervalos en los que se puede dividir.

En este caso, a diferencia de la PMF, que nos dice la probabilidad de que ocurra un valor exacto, se utiliza la cumulative distribution function o cdf, que nos dice la probabilidad de que ocurra ese valor o cualquier otro menor a él:

P(x) = \Pr(X \leq x).

Nótese que se usa una $P$ mayúscula para representar la cdf. Usando esto, se puede calcular la probabilidad de estar en cualquier intervalo:

\Pr(a < X \leq b) = P(b) - P(a).

La función que describe la distribución de probabilidad de variables aleatorias continuas se llama probability density function o pdf, que coincide con la derivada de la cdf:

p(x) = \frac{d}{dx} P(x).

La PMF (discreta) mide "barras" (puntos exactos).
La PDF (continua) mide "áreas" (intervalos).

Dada una pdf, podemos calcular la probabilidad de que una variable continua se encuentre en un intervalo finito como:

\Pr(a < X \leq b) = \int_{a}^{b} p(x)\, dx = P(b) - P(a).

Ejemplo: Tiempo de espera en una parada de autobús

Imagina que el tiempo de espera (en minutos) para el autobús sigue una distribución uniforme entre 0 y 10 minutos. Su pdf es constante: p(x) = $1/10$ para $0 \leq x \leq 10$ , y 0 en cualquier otro caso. Si queremos saber la probabilidad de que el autobús llegue entre el minuto 2 y el minuto 5 $(\Pr(2 < X \leq 5))$ , utilizamos la integral de la pdf:

\Pr(2 < X \leq 5) = \int_{2}^{5} \frac{1}{10} \, dx

Calculamos la integral:

\left[ \frac{1}{10}x \right]_{2}^{5} = \frac{5}{10} - \frac{2}{10} = \frac{3}{10} = 0.3

Por lo tanto, hay una probabilidad del 30% de que el autobús llegue en ese intervalo de tiempo.

Estadísticos

Media ( $\mu$ ): promedio aritmético, eepresenta el valor que obtendrías si pudieras repartir el total de los datos equitativamente entre todos los elementos.
Varianza ( $\sigma^2$ ): medida de la dispersión de una distribución, mide qué tanto se alejan, en promedio, los valores de la media. Como eleva las diferencias al cuadrado, sus unidades también quedan al cuadrado (por ejemplo, si mides en metros, la varianza estará en metros cuadrados).
Desviación estándar ( $\sigma$ ): es la raíz de la varianza. "Corrige" el problema de la varianza. Da una idea de cuánto se alejan los datos del promedio en las unidades originales.

Inferencia Bayesiana

El término "inferencia" hace referencia al acto de generalizar a partir de datos de muestra, normalmente con cierto grado de confianza. El término "bayesiano" se utiliza para referirse a los métodos de inferencia que representan esa confianza utilizando la teoría de la probabilidad y el teorema de Bayes.

El teorema de Bayes es una fórmula para calcular la distribución de probabilidad sobre posibles valores de una cantidad desconocida $H$ dados unos datos observados $Y$ :

p(H \mid Y) = \frac{p(Y \mid H)\, p(H)}{p(Y)}.

$p(H)$ representa lo que se conoce sobre los posibles valores de $H$ antes de ver ningún dato; esto es la distribución a priori.
$p(Y \mid H)$ representa la distribución sobre los posibles resultados $Y$ que esperamos ver dado $H$ ; esto es la distribución de observación.
Si la evaluamos en un punto correspondiente a las observaciones reales, obtenemos la función $p(Y\mid H)$ , que se denomina likelihood.

Multiplicando la distribución a priori $p(H)$ por la función de likelihood $p(Y \mid H)$ para cada $h$ se obtiene la unnormalized joint distribution $p(H, Y)$ . Se puede convertir en una distribución normalizada dividiendo por $p(Y)$ , lo que se conoce como marginal likelihood (veremos esto más adelante).

Al normalizar la joint distribution, se obtiene la posterior distribution, $p(H \mid Y)$ , que representa lo que se sabe de la distribución después de ver evidencia. En otras palabras:

\text{posterior} \propto \text{prior} \times \text{likelihood}.

Ejemplo: test de una enfermedad rara

Imagina que quieres saber si un paciente tiene una enfermedad rara (Hipótesis $H$ ) que afecta solo al 1% de la población.

Distribución a priori ( $p(H)$ ): Antes de hacer cualquier prueba, tu creencia inicial sobre la probabilidad de que el paciente esté enfermo es 0.01 (el 1% de la población).
Likelihood ( $p(Y \mid H$ )): El paciente se hace una prueba médica. Supongamos que la prueba es muy buena: si estás enfermo, da positivo el 99% de las veces. Pero, si estás sano, aún existe un 5% de probabilidad de que dé un falso positivo. El likelihood aquí es la capacidad de la prueba para distinguir entre sano y enfermo.
Posterior ( $p(H \mid Y$ )): Imagina que el paciente da positivo en la prueba. La pregunta clave es: ¿Cuál es la probabilidad de que esté realmente enfermo?

Intuitivamente, podrías pensar que si la prueba tiene un 99% de precisión, la probabilidad de enfermedad debería ser cercana al 99%. Sin embargo, aplicando el Teorema de Bayes tenemos:

p(H = \text{enf} \mid Y = \text{pos}) = \frac{p(Y = \text{pos} \mid H = \text{enf}) \cdot p(H = \text{enf})}{p(Y = \text{pos})}

Donde:

Prior $p(H = \text{enf}) = 0.01$ (solo el 1% de la población está enferma).
Likelihood $p(Y = \text{pos} \mid H = \text{enf}) = 0.99$ (la prueba detecta al 99% de los enfermos).
Falsos positivos $p(Y = \text{pos} \mid H = \text{sano}) = 0.05$ (la prueba se equivoca con el 5% de los sanos).

Paso 1: Calcular la probabilidad total de un resultado positivo $p(Y = \text{pos})$

Un positivo puede ser un verdadero positivo (enfermo que da positivo) o un falso positivo (sano que da positivo):

p(Y = \text{pos}) = (\text{Precisión} \times \text{Prevalencia}) + (\text{Falsos Positivos} \times \text{Población Sana})

p(Y = \text{pos}) = (0.99 \times 0.01) + (0.05 \times 0.99)

p(Y = \text{pos}) = 0.0099 + 0.0495 = 0.0594

Paso 2: Calcular la Posterior

Ahora sustituimos en la fórmula de Bayes:

p(H = \text{enf} \mid Y = \text{pos}) = \frac{0.99 \cdot 0.01}{0.0594} \approx 0.166

Conclusión: Aunque la prueba es "99% precisa", la probabilidad real de que el paciente esté enfermo tras dar positivo es de apenas un 16.6%. La baja prevalencia (la prior) "tira" del resultado hacia abajo con mucha fuerza. La cantidad de personas sanas en la población es tan grande que el 5% de falsos positivos supera en número a los verdaderos positivos. Este ejemplo demuestra que, en inferencia bayesiana, los datos observados no son los únicos que determinan la realidad; nuestra creencia inicial sobre la rareza del evento es fundamental.

Distribuciones de probabilidad

Existe una gran variedad de distribuciones de probabilidad que se utilizan para distintos tipos de modelos. En este enlace puedes observar algunas de las más utilizadas de forma interactiva.

Un modelo generativo es una distribución de probabilidad conjunta $p(x)$ , para $x \in X$ .