← Volver

Modelando la incertidumbre con distribuciones

Imagen ilustrativa

¿Alguna vez has observado patrones en la variabilidad de tus datos? Las distribuciones de probabilidad son el lenguaje con el que describimos esos patrones de incertidumbre. Imagina cada distribución como un molde que cuenta una historia particular —ya sea de éxitos y fracasos, de llegadas por minuto, o de mediciones con ruido— y nos proporciona fórmulas para calcular probabilidades, valores esperados y dispersión.

En esta guía presentamos las distribuciones discretas (para conteos) y luego las continuas (para mediciones) más importantes. De cada una se incluye una explicación intuitiva de qué representa, cuándo usarla, sus parámetros y soporte, las fórmulas clave (PMF/PDF, CDF si aplica, media, varianza, MGF), propiedades destacadas y errores comunes a evitar. Cada distribución viene acompañada de un ejemplo resuelto paso a paso (verificado con simulación en R) para ilustrar su aplicación.

Distribuciones discretas notables

Bernoulli

Imagina que cada mañana coges el autobús para ir a clase.

  • A veces llega a tiempo.
  • A veces llega tarde.

Por tanto, podemos definir la siguiente regla:

  • Éxito (1): el autobús llega a tiempo.
  • Fracaso (0): el autobús llega tarde.

Cada día solo puede ocurrir una de las dos cosas. No hay medias tintas.

Esto es una distribución de Bernoulli.

Resumen: Una Bernoulli es una variable aleatoria con dos posibles resultados éxito 1 con probabilidad \(p\) y fracaso 0 con probabilidad \(1-p\).

Definimos la variable indicadora: \[ X = \begin{cases} 1 & \text{si llega a tiempo}\\ 0 & \text{si llega tarde} \end{cases} \qquad\Rightarrow\qquad X\sim\text{Bernoulli}(p) \] donde \(p\) es la probabilidad de llegar a tiempo.

  • Soporte: \(\{0,1\}\)
  • Parámetro: \(p\in(0,1)\)
  • PMF:

    Definimos \(X=1\) si ocurre un éxito y \(X=0\) si ocurre un fracaso. El parámetro \(p\) representa la probabilidad de éxito en un único intento. Por definición: \[ P(X=1)=p. \] Como en un experimento de Bernoulli solo pueden ocurrir dos resultados posibles (éxito o fracaso) y la probabilidad total debe sumar 1, la probabilidad del otro resultado viene dada por el complemento: \[ P(X=0)=1-P(X=1)=1-p. \]
  • Media: \[ E[X]=0\cdot(1-p)+1\cdot p=p \]
  • Varianza: \[ \mathrm{Var}(X)=E[X^2]-E[X]^2 \] Como \(X\in\{0,1\}\), se cumple \(X^2=X\), entonces \(E[X^2]=E[X]=p\) y: \[ \mathrm{Var}(X)=p-p^2=p(1-p) \]
  • MGF: \[ M_X(t)=E[e^{tX}]=(1-p)e^{0}+pe^{t}=1-p+pe^t \]

Binomial

Imagina una fábrica de bombillas

Sabemos por experiencia que:

  • Una bombilla solo puede salir defectuosa o correcta
  • Aproximadamente el 2% salen defectuosas

Por tanto definimos:

  • Éxito (1): la bombilla es defectuosa.
  • Fracaso (0): la bombilla funciona bien.

Como hemos visto antes esto es una Bernoulli. Pero si ahora cogemos una caja con 100 bombillas y queremos saber el número de éxitos tendremos una binomial.

Resumen: Cálcula el número de éxitos en n ensayos de bernoulli.

  • Soporte: \(\{0,1,\dots,n\}\)
  • Parámetros: \(n\in\mathbb{N}\) (nº de intentos), \(p\in(0,1)\) (prob. de éxito)
  • PMF:

    Paso 1
    Consideramos una secuencia concreta de \(n\) ensayos, por ejemplo \( (1,0,1,1,0) \).

    Paso 2
    Como los ensayos son independientes, la probabilidad conjunta es el producto de las probabilidades individuales: \[ P(1,0,1,1,0) =P(X_1=1)\,P(X_2=0)\,P(X_3=1)\,P(X_4=1)\,P(X_5=0). \]

    Paso 3
    Como cada uno es un experimento de Bernoulli, sustituimos usando \(P(X_i=1)=p\) y \(P(X_i=0)=1-p\): \[ p\,(1-p)\,p\,p\,(1-p). \]

    Paso 4
    Agrupamos términos iguales.
    Por tanto: \[ p\cdot p\cdot p\,(1-p)\cdot(1-p)=p^3(1-p)^2. \]

    Generalización
    Si una secuencia tiene:

    \(k\) éxitos
    \(n-k\) fracasos

    entonces siempre: \[ P(\text{esa secuencia}) =\underbrace{p\cdot p\cdots p}_{k\ \text{veces}} \underbrace{(1-p)\cdot(1-p)\cdots(1-p)}_{n-k\ \text{veces}} =p^k(1-p)^{n-k}. \]

    No hay ningún truco. Es simplemente multiplicar cosas iguales.

    Paso 5
    Pero ahora piensa esto: hay muchas secuencias distintas que tienen exactamente \(k\) éxitos.

    Ejemplo sencillo: si \(n=3\) y \(k=2\), las secuencias posibles son \((1,1,0)\), \((1,0,1)\) y \((0,1,1)\).

    Son 3 secuencias distintas, pero todas tienen 2 éxitos, 1 fracaso y la misma probabilidad \[ p^2(1-p). \]

    La pregunta es:

    ¿De cuántas formas puedo elegir en qué posiciones van los \(k\) éxitos entre \(n\) intentos?

    Eso es exactamente una combinación: \[ \binom{n}{k}. \] Paso 6
    Todas esas secuencias son mutuamente excluyentes y tienen la misma probabilidad \(p^k(1-p)^{n-k}\). Por tanto, la probabilidad total de obtener exactamente \(k\) éxitos se obtiene sumando las probabilidades de todas ellas: \[ P(X=k)=\binom{n}{k}p^k(1-p)^{\,n-k}. \]
  • Media:

    Paso 1
    Consideramos \(X_i\) como la variable que indica si el intento \(i\) es un éxito (\(X_i=1\)) o no (\(X_i=0\)). El número total de éxitos en los \(n\) intentos puede escribirse como \[ X=\sum_{i=1}^{n}X_i. \] Esto muestra que la variable binomial es una suma de \(n\) variables asociadas a cada intento.

    Paso 2
    Aplicamos la linealidad de la esperanza, que nos permite sumar las esperanzas, haya independencia o no: \[ E[X]=E\Big[\sum_{i=1}^{n}X_i\Big]=\sum_{i=1}^{n}E[X_i]. \]

    Paso 3
    Como todas las variables \(X_i\) tienen la misma esperanza \(p\), la suma anterior se convierte en \[ E[X]=\sum_{i=1}^{n}p. \] Al estar sumando el mismo valor \(p\) un total de \(n\) veces, se obtiene finalmente \[ E[X]=np. \]
  • Varianza

    Paso 1
    Escribimos la binomial como suma: \[ X=\sum_{i=1}^{n}X_i. \]

    Paso 2
    Fórmula general de la varianza de una suma: \[ \mathrm{Var}\!\left(\sum_{i=1}^{n}X_i\right) = \sum_{i=1}^{n}\mathrm{Var}(X_i) + 2\sum_{i\lt j}\mathrm{Cov}(X_i,X_j). \]

    Paso 3
    Como los ensayos son independientes: \[ \mathrm{Cov}(X_i,X_j)=0 \quad \text{si } i\neq j. \]

    Paso 4
    Entonces queda: \[ \mathrm{Var}(X)=\sum_{i=1}^{n}\mathrm{Var}(X_i). \]

    Paso 5
    Como \(\mathrm{Var}(X_i)=p(1-p)\), sumamos \(n\) veces: \[ \mathrm{Var}(X)=\sum_{i=1}^{n}p(1-p)=n\,p(1-p). \]
  • MGF:

    Paso 1
    Partimos de la definición de la función generadora de momentos: \[ M_X(t)=E[e^{tX}]. \]

    Paso 2
    Sustituimos la variable binomial como suma de variables: \[ X=\sum_{i=1}^{n}X_i \qquad\Rightarrow\qquad M_X(t)=E\!\left[e^{t\sum_{i=1}^{n}X_i}\right]. \]

    Paso 3
    Aquí usamos una propiedad básica del exponencial: \[ e^{a+b}=e^a\,e^b. \] Aplicada repetidamente a una suma, esta propiedad convierte una suma en un producto. En nuestro caso: \[ e^{t(X_1+X_2+\cdots+X_n)} = e^{tX_1}\,e^{tX_2}\cdots e^{tX_n} = \prod_{i=1}^{n} e^{tX_i}. \] Por tanto: \[ M_X(t)=E\!\left[\prod_{i=1}^{n} e^{tX_i}\right]. \]

    Paso 4
    Como los ensayos son independientes, la esperanza del producto es el producto de las esperanzas: \[ E\!\left[\prod e^{tX_i}\right] = \prod E[e^{tX_i}]. \]

    Paso 5
    Todas las variables \(X_i\) tienen la misma distribución, así que todas las esperanzas son iguales: \[ \prod E[e^{tX_i}] = \big(E[e^{tX_1}]\big)^n. \]

    Paso 6
    Usando la MGF de una Bernoulli, \(E[e^{tX_1}]=1-p+pe^t\), se obtiene finalmente: \[ M_X(t)=(1-p+pe^t)^n. \]

Geométrica

Imagina que llamas a un servicio de atención al cliente.

  • A veces te atienden.
  • A veces no te atienden.

Cada llamada es independiente y siempre tiene la misma probabilidad de éxito.

Por tanto, podemos definir la siguiente regla:

  • Éxito (1): te atienden en la llamada.
  • Fracaso (0): no te atienden.

A diferencia de otros casos, ahora no fijamos de antemano el número de llamadas.

La pregunta que nos hacemos es:

¿Cuántas llamadas necesito hacer hasta que me atienden por primera vez?

Es decir, contamos cuántos fracasos ocurren seguidos hasta que aparece el primer éxito.

Esto es una distribución geométrica.

Resumen: Una distribución geométrica modela el número de intentos necesarios hasta obtener el primer éxito en una secuencia de ensayos Bernoulli independientes, cada uno con probabilidad de éxito \(p\).

  • Soporte: \(\{0,1,2,\dots\}\)
  • Parámetro: \(p\in(0,1)\) (probabilidad de éxito en cada intento)
  • PMF:

    Imagina que \(X\) es el número de llamadas hasta que te atienden por primera vez.

    Paso 1
    Que ocurra \(X=k\) significa: fallas \(k-1\) veces y luego tienes éxito en la llamada \(k\).

    Paso 2
    Eso corresponde a una única secuencia posible: \[ (\underbrace{0,0,\dots,0}_{k-1\ \text{fracasos}},\,1). \]

    Paso 3
    Como cada llamada es independiente, la probabilidad de esa secuencia es el producto: \[ (1-p)\cdot(1-p)\cdots(1-p)\cdot p. \]

    Paso 4
    Hay \(k-1\) fracasos, así que agrupando términos queda: \[ P(X=k)=(1-p)^{k-1}p. \]

    Conclusión
    \[ P(X=k)=(1-p)^{k-1}p,\qquad k=1,2,3,\dots \]
  • Media:

    Paso 1
    Por definición, la esperanza de una variable aleatoria discreta se calcula como la suma de cada valor posible multiplicado por su probabilidad: \[ E[X]=\sum_{k} k\,P(X=k). \]

    Paso 2
    En la distribución geométrica se cumple \(P(X=k)=p(1-p)^k\) para \(k=0,1,2,\dots\). Sustituyendo esta expresión en la definición anterior: \[ E[X]=\sum_{k=0}^{\infty} k\,p(1-p)^k. \]

    Paso 3
    Sacamos el factor constante \(p\) fuera de la suma: \[ E[X]=p\sum_{k=0}^{\infty} k(1-p)^k. \]

    Paso 4
    La suma que aparece es una serie infinita que se puede calcular usando una identidad conocida. En particular, se cumple que: \[ \sum_{k=0}^{\infty} k\,q^k=\frac{q}{(1-q)^2}, \] identidad que se obtiene derivando la serie geométrica básica \[ \sum_{k=0}^{\infty} q^k=\frac{1}{1-q}. \] En nuestro caso tomamos \(q=1-p\), lo que permite aplicar directamente esta identidad.

    Paso 5
    Sustituyendo en la expresión anterior y simplificando se obtiene finalmente: \[ E[X]=\frac{1-p}{p}. \]
  • Varianza:

    Paso 1
    Recordamos que la varianza puede calcularse a partir de la esperanza mediante: \[ \mathrm{Var}(X)=E[X^2]-\big(E[X]\big)^2. \]

    Paso 2
    Por definición de esperanza para variables aleatorias discretas: \[ E[X^2]=\sum_{k=0}^{\infty} k^2\,P(X=k) = \sum_{k=0}^{\infty} k^2\,p(1-p)^k. \]

    Paso 3
    Sacamos el factor constante \(p\) fuera de la suma: \[ E[X^2]=p\sum_{k=0}^{\infty} k^2(1-p)^k. \]

    Paso 4
    La suma que aparece es una serie infinita conocida. En particular, se cumple la identidad: \[ \sum_{k=0}^{\infty} k^2 q^k=\frac{q(1+q)}{(1-q)^3}, \] que se obtiene derivando dos veces la serie geométrica básica \[ \sum_{k=0}^{\infty} q^k=\frac{1}{1-q}. \] En nuestro caso tomamos \(q=1-p\), lo que permite aplicar directamente esta identidad.

    Paso 5
    Sustituyendo \(q=1-p\) en la identidad anterior se obtiene: \[ E[X^2] = p\,\frac{(1-p)(1+(1-p))}{p^3} = \frac{(1-p)(2-p)}{p^2}. \]

    Paso 6
    Ya conocemos la media \(E[X]=\frac{1-p}{p}\). Sustituimos ambos valores en la definición de la varianza: \[ \mathrm{Var}(X) = E[X^2]-\big(E[X]\big)^2 = \frac{(1-p)(2-p)}{p^2} - \left(\frac{1-p}{p}\right)^2. \] Desarrollando el cuadrado y simplificando: \[ \mathrm{Var}(X) = \frac{(1-p)(2-p)-(1-p)^2}{p^2} = \frac{1-p}{p^2}. \]
  • MGF:

    Paso 1
    Partimos de la definición de la función generadora de momentos: \[ M_X(t)=E[e^{tX}]. \]

    Paso 2
    Usamos la definición de esperanza para una variable discreta: \[ M_X(t)=\sum_{k=0}^{\infty} e^{tk}\,P(X=k). \]

    Paso 3
    Sustituimos la PMF de la geométrica: \[ P(X=k)=p(1-p)^k. \] Entonces: \[ M_X(t)=\sum_{k=0}^{\infty} p\,\big[(1-p)e^{t}\big]^k. \]

    Paso 4
    Reconocemos una serie geométrica de la forma \[ \sum_{k=0}^{\infty} r^k=\frac{1}{1-r}, \qquad |r|<1. \] En nuestro caso \(r=(1-p)e^{t}\), que cumple la condición si \[ t<-\ln(1-p). \]

    Paso 5
    Aplicando la identidad de la serie geométrica:

    \[ M_X(t)=\frac{p}{1-(1-p)e^{t}}, \qquad t<-\ln(1-p). \]



Hipergeométrica

Imagina que tienes una urna con bolas de dos tipos.

  • Algunas bolas son rojas.
  • Las demás bolas son blancas.

Sabemos exactamente cuántas bolas hay de cada tipo dentro de la urna.

Ahora extraemos bolas sin devolverlas a la urna.

Por tanto, podemos definir la siguiente regla:

  • Éxito (1): sacar una bola roja.
  • Fracaso (0): sacar una bola blanca.

A diferencia de otros casos, la probabilidad cambia en cada extracción, porque el contenido de la urna se va modificando.

La pregunta que nos hacemos es:

¿Cuántas bolas rojas obtengo al extraer un número fijo de bolas?

Es decir, contamos el número de éxitos en una muestra tomada sin reemplazo de una población finita.

Esto es una distribución hipergeométrica.

Resumen: Una distribución hipergeométrica modela el número de éxitos en una muestra extraída sin reemplazo de una población finita, donde el número total de éxitos y fracasos es conocido.

  • Soporte: \(\{0,1,\dots,n\}\) (en realidad, máx. \(\min(n,K)\))
  • Parámetros: \(N\) (tamaño población), \(K\) éxitos en la población, \(n\) tamaño de muestra sin reemplazo
  • PMF:

    Paso 1
    Consideramos una población finita de tamaño \(N\), que contiene:
    • \(K\) éxitos (por ejemplo, bolas rojas).
    • \(N-K\) fracasos (bolas blancas).
    Extraemos una muestra de tamaño \(n\) sin reemplazo.

    Paso 2
    El evento \(X=k\) significa:
    • Elegir exactamente \(k\) éxitos de los \(K\) disponibles.
    • Elegir exactamente \(n-k\) fracasos de los \(N-K\) disponibles.
    No importa el orden en que se extraigan, solo el conjunto final.

    Paso 3
    El número de formas de elegir \(k\) éxitos entre \(K\) es: \[ \binom{K}{k}. \]

    Paso 4
    El número de formas de elegir \(n-k\) fracasos entre \(N-K\) es: \[ \binom{N-K}{\,n-k\,}. \]

    Paso 5
    Como ambas elecciones son independientes entre sí, el número total de muestras favorables es el producto: \[ \binom{K}{k}\binom{N-K}{\,n-k\,}. \]

    Paso 6
    El número total de muestras posibles de tamaño \(n\) que pueden extraerse de una población de tamaño \(N\) es: \[ \binom{N}{n}. \]

    Paso 7
    Como todas las muestras posibles son igualmente probables, la probabilidad de obtener exactamente \(k\) éxitos es el cociente: \[ P(X=k) = \frac{\binom{K}{k}\,\binom{N-K}{\,n-k\,}}{\binom{N}{n}}. \]
  • Media:

    Paso 1
    Pensamos cada extracción como una variable indicadora. Definimos \(X_i=1\) si en la extracción \(i\) obtenemos un éxito, y \(X_i=0\) si obtenemos un fracaso.

    Paso 2
    El número total de éxitos en la muestra puede escribirse como la suma: \[ X = X_1 + X_2 + \cdots + X_n. \]

    Paso 3
    Aunque las extracciones no son independientes, todas tienen la misma probabilidad de éxito, ya que la proporción de éxitos en la población es constante. Esa probabilidad es: \[ P(X_i=1)=\frac{K}{N}. \]

    Paso 4
    Por definición de esperanza y usando la linealidad de la esperanza: \[ E[X]=E\!\left[\sum_{i=1}^{n} X_i\right] = \sum_{i=1}^{n} E[X_i]. \]

    Paso 5
    Como cada \(X_i\) tiene esperanza \(\frac{K}{N}\), se obtiene: \[ E[X] = \sum_{i=1}^{n} \frac{K}{N} = n\frac{K}{N}. \]
  • Varianza:

    Paso 1
    Escribimos el número total de éxitos como suma de variables indicadoras:

    \[ X = X_1 + X_2 + \cdots + X_n \]

    donde \(X_i=1\) si la extracción \(i\) es un éxito y \(X_i=0\) en caso contrario.

    Paso 2
    Para calcular la varianza de una suma usamos la descomposición general:

    \[ \operatorname{Var}(X) = \sum_{i=1}^{n}\operatorname{Var}(X_i) + 2\sum_{i=1}^{n}\sum_{j=i+1}^{n}\operatorname{Cov}(X_i,X_j) \]

    El primer sumatorio recoge la variabilidad de cada extracción por separado. El segundo corrige por la dependencia entre pares de extracciones, que aparece porque el muestreo se realiza sin reemplazo.

    Paso 3
    Cada \(X_i\) es una variable indicadora: solo puede valer 0 o 1. Antes de fijar ninguna otra extracción, la probabilidad de éxito en una extracción cualquiera es la proporción de éxitos en la población:

    \[ P(X_i=1)=\frac{K}{N}, \qquad P(X_i=0)=1-\frac{K}{N} \]

    Esto coincide con la definición de una Bernoulli con parámetro \(p=\frac{K}{N}\). Ahora justificamos por qué su varianza vale \(p(1-p)\) (y no lo “suponemos”):

    Por definición, \[ \operatorname{Var}(X_i)=E[X_i^2]-\big(E[X_i]\big)^2. \]

    Como \(X_i\in\{0,1\}\), se cumple que \(X_i^2=X_i\). Por tanto: \[ E[X_i^2]=E[X_i]. \]

    Además, para una Bernoulli, \(E[X_i]=P(X_i=1)=p\). Sustituyendo: \[ \operatorname{Var}(X_i)=p-p^2=p(1-p). \]

    Aplicando esto con \(p=\frac{K}{N}\): \[ \operatorname{Var}(X_i) = \frac{K}{N}\left(1-\frac{K}{N}\right). \]

    Paso 4
    Las variables \(X_i\) y \(X_j\) no son independientes. Al extraer sin reemplazo, obtener un éxito reduce la probabilidad de obtener otro. Esto se traduce en una covarianza negativa:

    \[ \operatorname{Cov}(X_i,X_j) = -\,\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{1}{N-1} \]

    Paso 5
    Sustituimos en la fórmula general. El primer sumatorio tiene \(n\) términos iguales \(\Rightarrow\) aparece el factor \(n\). El segundo término suma las covarianzas de todos los pares distintos; hay \(\binom{n}{2}\) pares, y la fórmula lleva un factor 2 \(\Rightarrow\) aparece \(2\binom{n}{2}\):

    \[ \operatorname{Var}(X) = n\frac{K}{N}\left(1-\frac{K}{N}\right) + 2\binom{n}{2} \left( -\,\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{1}{N-1} \right) \]

    Paso 6
    Ahora simplificamos paso a paso. Primero sacamos el factor común \(\frac{K}{N}\left(1-\frac{K}{N}\right)\):

    \[ \operatorname{Var}(X) = \frac{K}{N}\left(1-\frac{K}{N}\right) \left[ n - 2\binom{n}{2}\frac{1}{N-1} \right] \]

    Usamos que \(\binom{n}{2}=\frac{n(n-1)}{2}\). Entonces: \[ 2\binom{n}{2} = 2\cdot\frac{n(n-1)}{2} = n(n-1). \]

    Sustituyendo: \[ \operatorname{Var}(X) = \frac{K}{N}\left(1-\frac{K}{N}\right) \left[ n - \frac{n(n-1)}{N-1} \right] \]

    Ahora sacamos \(n\) factor común dentro del corchete: \[ n - \frac{n(n-1)}{N-1} = n\left( 1 - \frac{n-1}{N-1} \right). \]

    Unificamos dentro del paréntesis: \[ 1-\frac{n-1}{N-1} = \frac{N-1}{N-1} - \frac{n-1}{N-1} = \frac{N-n}{N-1}. \]

    Por tanto: \[ \operatorname{Var}(X) = \frac{K}{N}\left(1-\frac{K}{N}\right) \,n\, \frac{N-n}{N-1}. \]

    Reordenando, queda la forma estándar: \[ \operatorname{Var}(X) = n\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}. \]

  • MGF:

    La función generadora de momentos se define como \(M_X(t)=E[e^{tX}]\). En la distribución hipergeométrica, calcular esta esperanza implica sumar términos combinatorios complejos asociados al muestreo sin reemplazo.

    A diferencia de la binomial o la geométrica, esta suma no se puede simplificar a una expresión compacta y manejable. Por este motivo, la distribución hipergeométrica no tiene una MGF con forma cerrada simple, y sus momentos suelen obtenerse por otros métodos.

Binomial negativa

Imagina que tienes una urna con bolas de dos tipos.

  • Algunas bolas son rojas.
  • Las demás bolas son blancas.

No importa el número total de bolas en la urna, solo la proporción de bolas rojas.

Ahora extraemos bolas devolviéndolas a la urna después de cada extracción.

Esto hace que cada extracción sea independiente y tenga siempre la misma probabilidad de éxito.

Por tanto, podemos definir la siguiente regla:

  • Éxito (1): sacar una bola roja.
  • Fracaso (0): sacar una bola blanca.

Fijamos de antemano el número total de extracciones, digamos \(n\).

La pregunta que nos hacemos es:

¿Cuántas bolas rojas obtengo al realizar \(n\) extracciones?

Es decir, contamos el número de éxitos en una secuencia de ensayos independientes, todos con la misma probabilidad de éxito.

Esto es una distribución binomial.

Resumen: Una distribución binomial modela el número de éxitos en un número fijo de ensayos independientes, cada uno con probabilidad de éxito \(p\).

  • Soporte: \(\{0,1,2,\dots\}\)
  • Parámetros: \(r>0\) (número de éxitos objetivo; usualmente entero), \(p\in(0,1)\)
  • PMF:

    Paso 1 · Ejemplo concreto
    Imagina que estás llamando a un servicio técnico. Cada llamada es independiente y:
    • Con probabilidad \(p\) te atienden (éxito).
    • Con probabilidad \(1-p\) no te atienden (fracaso).
    Decides seguir llamando hasta que te atiendan dos veces.

    Paso 2 · Qué significa \(X=k\)
    Definimos la variable aleatoria \(X\) como el número de fracasos antes de que ocurra el segundo éxito.

    Por ejemplo, \(X=3\) significa que:
    • Han ocurrido exactamente 3 fracasos.
    • Han ocurrido exactamente 2 éxitos.
    • La última llamada es necesariamente un éxito (el segundo).
    Una secuencia posible sería: \[ (F, E, F, F, E) \]

    Paso 3 · Probabilidad de una secuencia concreta
    En esa secuencia hay:
    • 3 fracasos \(\Rightarrow (1-p)^3\).
    • 2 éxitos \(\Rightarrow p^2\).
    Como las llamadas son independientes, la probabilidad de esa secuencia es: \[ (1-p)^3\,p^2. \]

    Paso 4 · ¿Cuántas secuencias dan lugar a \(X=3\)?
    El último resultado está fijado (tiene que ser un éxito). Antes de él hay \(3+2-1=4\) posiciones, en las que debemos colocar:
    • 3 fracasos.
    • 1 éxito.
    El número de formas distintas de hacerlo es: \[ \binom{4}{3}. \]

    Paso 5 · Probabilidad total del evento \(X=3\)
    Todas esas secuencias son disjuntas y tienen la misma probabilidad, así que sumamos sus probabilidades: \[ P(X=3)=\binom{4}{3}(1-p)^3p^2. \]

    Paso 6 · Generalización
    Si en lugar de 2 éxitos queremos obtener \(r\) éxitos, y el número de fracasos es \(k\), el razonamiento es exactamente el mismo:
    • El último ensayo es el \(r\)-ésimo éxito.
    • Antes hay \(k+r-1\) ensayos.
    • De ellos, \(k\) son fracasos y \(r-1\) son éxitos.
    El número de secuencias posibles es: \[ \binom{k+r-1}{k}. \]

    Resultado final
    Multiplicando número de secuencias por la probabilidad de cada una: \[ P(X=k) = \binom{k+r-1}{k}(1-p)^k\,p^r. \]
  • Media:

    Idea clave antes de empezar
    La binomial negativa cuenta cuántos fracasos ocurren hasta obtener exactamente \(r\) éxitos.

    En lugar de calcular la media “de golpe”, vamos a usar una idea muy sencilla: llegar a \(r\) éxitos es lo mismo que repetir \(r\) veces la espera hasta un éxito.

    Paso 1 · Descomponer el proceso
    Imagina el proceso así:
    • Esperas hasta el primer éxito → cuenta fracasos.
    • Luego esperas hasta el segundo éxito → cuenta fracasos.
    • Y así sucesivamente, hasta el éxito número \(r\).
    Cada uno de esos tramos es una distribución geométrica con probabilidad de éxito \(p\).

    Paso 2 · Escribir la variable como suma
    Si llamamos \(Y_1, Y_2, \dots, Y_r\) al número de fracasos antes de cada éxito, entonces el número total de fracasos es: \[ X = Y_1 + Y_2 + \cdots + Y_r. \]

    Paso 3 · Media de cada tramo
    Ya sabemos (de la distribución geométrica) que el número medio de fracasos antes de un éxito es: \[ E[Y_i] = \frac{1-p}{p}. \]

    Paso 4 · Sumar las medias
    Usamos la linealidad de la esperanza: \[ E[X] = E[Y_1 + \cdots + Y_r] = E[Y_1] + \cdots + E[Y_r]. \]

    Como hay \(r\) términos iguales: \[ E[X] = r\,\frac{1-p}{p}. \]

    Interpretación
    De media, cada éxito “cuesta” \(\frac{1-p}{p}\) fracasos. Para obtener \(r\) éxitos, el número medio total de fracasos es simplemente \(r\) veces esa cantidad.
  • Varianza:

    Idea clave
    Igual que con la media, la clave está en ver la binomial negativa como la suma de varias esperas independientes hasta un éxito.

    Paso 1 · Descomponer el proceso
    Para obtener \(r\) éxitos, el proceso se puede dividir en \(r\) etapas:
    • Esperar hasta el primer éxito.
    • Esperar hasta el segundo éxito.
    • Esperar hasta el éxito número \(r\).
    Si llamamos \(Y_1, Y_2, \dots, Y_r\) al número de fracasos antes de cada éxito, entonces: \[ X = Y_1 + Y_2 + \cdots + Y_r. \]

    Paso 2 · Varianza de cada tramo
    Cada variable \(Y_i\) sigue una distribución geométrica con probabilidad de éxito \(p\). Para una geométrica se cumple: \[ \operatorname{Var}(Y_i)=\frac{1-p}{p^2}. \]

    Paso 3 · Independencia
    Las esperas entre éxitos son independientes entre sí: lo que ocurre antes de un éxito no afecta a la espera hasta el siguiente.

    Paso 4 · Varianza de una suma
    Cuando sumamos variables independientes, la varianza de la suma es la suma de las varianzas: \[ \operatorname{Var}(X) = \operatorname{Var}(Y_1 + \cdots + Y_r) = \operatorname{Var}(Y_1) + \cdots + \operatorname{Var}(Y_r). \]

    Paso 5 · Sumar \(r\) veces la misma varianza
    Como todas las \(Y_i\) tienen la misma varianza: \[ \operatorname{Var}(X) = r\,\frac{1-p}{p^2}. \]

    Interpretación
    La dispersión total crece linealmente con el número de éxitos \(r\), y aumenta rápidamente cuando \(p\) es pequeño, porque los fracasos se vuelven más impredecibles.
  • MGF:

    Idea clave
    Igual que con la media y la varianza, la clave está en ver la binomial negativa como una suma de esperas geométricas independientes.

    Paso 1 · Descomponer la variable
    Para obtener \(r\) éxitos, el número total de fracasos puede escribirse como la suma de las esperas hasta cada éxito: \[ X = Y_1 + Y_2 + \cdots + Y_r, \] donde cada \(Y_i\) es el número de fracasos antes del \(i\)-ésimo éxito y sigue una distribución geométrica con probabilidad de éxito \(p\).

    Paso 2 · MGF de una suma
    Por definición, la función generadora de momentos es \[ M_X(t)=E[e^{tX}]. \] Sustituyendo la descomposición anterior: \[ M_X(t)=E\!\left[e^{t(Y_1+\cdots+Y_r)}\right]. \]

    Paso 3 · Pasar de suma a producto
    Usamos que el exponencial convierte sumas en productos: \[ e^{t(Y_1+\cdots+Y_r)} = e^{tY_1}\cdots e^{tY_r}. \] Por tanto: \[ M_X(t)=E\!\left[e^{tY_1}\cdots e^{tY_r}\right]. \]

    Paso 4 · Independencia
    Las esperas \(Y_1,\dots,Y_r\) son independientes, así que la esperanza del producto es el producto de las esperanzas: \[ M_X(t)=\prod_{i=1}^{r} E[e^{tY_i}]. \]

    Paso 5 · Todas las MGFs son iguales
    Todas las variables \(Y_i\) siguen la misma distribución geométrica, luego: \[ M_X(t)=\big(M_Y(t)\big)^r. \]

    Paso 6 · MGF de la geométrica
    Para una variable geométrica (fracasos antes del primer éxito), la MGF es: \[ M_Y(t)=\frac{p}{\,1-(1-p)e^t\,}, \qquad t<-\ln(1-p). \]

    Paso 7 · Resultado final
    Sustituyendo en la expresión anterior: \[ M_X(t) = \left(\frac{p}{\,1-(1-p)e^t\,}\right)^r, \qquad t<-\ln(1-p). \]

Poisson

Imagina que estás observando un fenómeno que ocurre de forma aleatoria en el tiempo.

  • Por ejemplo, las llamadas que llegan a un call center.
  • O los coches que pasan por un peaje.
  • O los errores que aparecen en una página web.

Sabemos que, de media, estos eventos ocurren a un cierto ritmo constante.

Por ejemplo: llegan unas \(\lambda\) llamadas por hora.

Dividimos el tiempo en intervalos pequeños y observamos lo siguiente:

  • En un intervalo muy pequeño, la probabilidad de que ocurra un evento es muy baja.
  • Es muy poco probable que ocurran dos eventos a la vez.
  • Lo que ocurre en un intervalo es independiente de los demás.

Ahora nos hacemos la siguiente pregunta:

¿Cuántos eventos ocurren en un intervalo de tiempo fijo?

Es decir, contamos el número de veces que ocurre el evento durante un periodo dado (por ejemplo, una hora).

Esto es una distribución de Poisson.

Resumen: Una distribución de Poisson modela el número de eventos que ocurren en un intervalo fijo de tiempo o espacio, cuando los eventos suceden de forma independiente y a una tasa media constante \(\lambda\).

  • Soporte: \(\{0,1,2,\dots\}\)
  • Parámetro: \(\lambda>0\)
  • PMF:

    Paso 1 · Ejemplo concreto
    Imagina que en un call center llegan, de media, \(\lambda=2\) llamadas por hora. Observamos exactamente una hora y contamos cuántas llamadas llegan en ese intervalo.

    Paso 2 · Dividir el tiempo
    Dividimos la hora en \(n\) intervalos muy pequeños, de modo que en cada uno:
    • La probabilidad de que llegue una llamada es muy pequeña.
    • Es prácticamente imposible que lleguen dos llamadas a la vez.
    En cada intervalo ocurre:
    • Éxito (1): llega una llamada.
    • Fracaso (0): no llega ninguna llamada.

    Paso 3 · Modelo binomial
    En cada intervalo la probabilidad de éxito es aproximadamente \(p=\frac{\lambda}{n}\). Por independencia, el número total de llamadas en la hora se puede aproximar por una binomial: \[ X_n \sim \operatorname{Binomial}\!\left(n,\frac{\lambda}{n}\right). \]

    Paso 4 · Probabilidad de un valor concreto
    La probabilidad de que lleguen exactamente \(k\) llamadas es: \[ P(X_n=k) = \binom{n}{k}\left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k}. \]

    Paso 5 · Pasar al límite
    Ahora hacemos \(n\to\infty\), es decir, tomamos intervalos cada vez más pequeños. En ese límite ocurren tres cosas clave:
    • \(\displaystyle \binom{n}{k}\frac{1}{n^k}\to\frac{1}{k!}\)
    • \(\displaystyle \left(1-\frac{\lambda}{n}\right)^n\to e^{-\lambda}\)
    • \(\displaystyle \left(1-\frac{\lambda}{n}\right)^{-k}\to 1\)

    Paso 6 · Resultado del límite
    Sustituyendo estos límites se obtiene: \[ P(X=k) = e^{-\lambda}\frac{\lambda^k}{k!}. \]

    Interpretación
    La distribución de Poisson aparece como el límite de una binomial cuando el número de ensayos es muy grande y la probabilidad de éxito en cada uno es muy pequeña, manteniendo constante la media \(\lambda\).
  • Media:

    Idea clave
    La distribución de Poisson se usa para contar cuántas veces ocurre un evento en un intervalo fijo, cuando sabemos cuántas veces ocurre de media.

    Paso 1 · Interpretación de \(\lambda\)
    El parámetro \(\lambda\) representa directamente la tasa media de ocurrencia del evento en el intervalo considerado.

    Por ejemplo, si \(\lambda=3\), significa que:
    • De media llegan 3 llamadas por hora.
    • De media ocurren 3 eventos en el intervalo.

    Paso 2 · Conexión con la binomial
    En la construcción de Poisson como límite de una binomial, consideramos una binomial con parámetros \(n\) y \(p=\frac{\lambda}{n}\). La media de una binomial es: \[ E[X_n]=np=\lambda. \]

    Paso 3 · Pasar al límite
    Al hacer \(n\to\infty\), la distribución binomial converge a una Poisson, y la media se conserva en el límite.

    Resultado final
    \[ E[X]=\lambda. \]
  • Varianza:

    Idea clave
    En la distribución de Poisson, la dispersión del número de eventos está directamente ligada a la frecuencia con la que ocurren.

    Paso 1 · Conexión con la binomial
    En la construcción de Poisson como límite de una binomial, partimos de una binomial con parámetros \(n\) y \(p=\frac{\lambda}{n}\).

    Paso 2 · Varianza de la binomial
    La varianza de una binomial es: \[ \operatorname{Var}(X_n)=np(1-p). \]

    Paso 3 · Sustituir el parámetro
    Sustituyendo \(p=\frac{\lambda}{n}\): \[ \operatorname{Var}(X_n) = n\frac{\lambda}{n}\left(1-\frac{\lambda}{n}\right) = \lambda\left(1-\frac{\lambda}{n}\right). \]

    Paso 4 · Pasar al límite
    Al hacer \(n\to\infty\), el término \(\frac{\lambda}{n}\) tiende a 0, y por tanto: \[ \operatorname{Var}(X)=\lambda. \]

    Resultado final
    \[ \operatorname{Var}(X)=\lambda. \]
  • MGF:

    Paso 1 · Definición
    La función generadora de momentos se define como: \[ M_X(t)=E[e^{tX}]. \]

    Paso 2 · Usar la PMF de Poisson
    Si \(X\sim\text{Poisson}(\lambda)\), entonces: \[ P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\qquad k=0,1,2,\dots \] Sustituyendo en la definición: \[ M_X(t)=\sum_{k=0}^{\infty} e^{tk}\,e^{-\lambda}\frac{\lambda^k}{k!}. \]

    Paso 3 · Sacar factores comunes
    Sacamos fuera de la suma los términos que no dependen de \(k\): \[ M_X(t) = e^{-\lambda}\sum_{k=0}^{\infty}\frac{(\lambda e^{t})^k}{k!}. \]

    Paso 4 · Reconocer la serie exponencial
    Recordamos que: \[ \sum_{k=0}^{\infty}\frac{a^k}{k!}=e^{a}. \] Aplicándolo con \(a=\lambda e^{t}\): \[ \sum_{k=0}^{\infty}\frac{(\lambda e^{t})^k}{k!} = e^{\lambda e^{t}}. \]

    Paso 5 · Simplificar
    Sustituyendo en la expresión anterior: \[ M_X(t) = e^{-\lambda}\,e^{\lambda e^{t}} = e^{\lambda(e^{t}-1)}. \]

    Resultado final
    \[ M_X(t)=\exp\!\big(\lambda(e^{t}-1)\big). \]

Distribuciones continuas notables

Uniforme continua \(\mathrm{U}(a,b)\)

Qué es: distribución “plana” en la que cualquier valor dentro del intervalo \([a,b]\) es igual de probable.

Cómo se usa: incertidumbre total en un rango conocido (no se prefiere ningún valor sobre otro). Se emplea para muestreos iniciales aleatorios o como supuesto de mínima información (p. ej. priors no informativos en Bayes).

  • Soporte: \([a,b]\)
  • Parámetros: \(a
  • PDF: \(f(x)=\frac{1}{\,b-a\,}\) para \(x\in[a,b]\), y 0 fuera
  • CDF: \(F(x)=\frac{x-a}{\,b-a\,}\) para \(a\le x\le b\)
  • Media: \(E[X]=\frac{a+b}{2}\)
  • Varianza: \(\Var(X)=\frac{(b-a)^2}{12}\)
  • MGF: \(M_X(t)=\frac{e^{tb}-e^{ta}}{\,t(b-a)\,}\) (\(t\neq 0\))
  • Propiedades: si \(X\sim U(a,b)\) entonces \(Y=\frac{X-a}{\,b-a\,}\sim U(0,1)\). Es la base para generar otras distribuciones vía transformación inversa.
  • Errores comunes: asumir distribución uniforme sin fundamentos (pocas variables son verdaderamente uniformes). También, no reconocer que requiere un rango acotado conocido; si el soporte es infinito no corresponde una uniforme.
Ejemplo resuelto

Ejemplo: \(X\sim U(1,6)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(2\le X\le 5)\).

  1. Media: \(E[X]=\frac{1+6}{2}=3.5\).
  2. Varianza: \(\Var(X)=\frac{(6-1)^2}{12}=\frac{25}{12}\approx2.0833\).
  3. \(P(2\le X\le 5)=\frac{5-2}{6-1}=\frac{3}{5}=0.6\).
punif(5, 1, 6) - punif(2, 1, 6)
c(media = (1+6)/2, var = (6-1)^2/12)

Exponencial \(\mathrm{Exp}(\lambda)\)

Qué es: distribución de los tiempos de espera entre eventos en un proceso Poisson de tasa constante \(\lambda\). Es continua equivalente a la Geométrica (propiedad de “sin memoria”).

Cómo se usa: tiempo hasta el siguiente evento o falla cuando ocurren al azar con frecuencia promedio conocida. Modela la vida de componentes sin desgaste (tasa de fallo constante), esperas en colas, llegada de eventos raros.

  • Soporte: \([0,\infty)\)
  • Parámetro: \(\lambda>0\) (tasa de eventos por unidad de tiempo; alternativamente se usa \(\beta=1/\lambda\) como parámetro de escala o media)
  • PDF: \(f(x)=\lambda e^{-\lambda x}\)
  • CDF: \(F(x)=1-e^{-\lambda x}\)
  • Media: \(E[X]=\frac{1}{\lambda}\)
  • Varianza: \(\Var(X)=\frac{1}{\lambda^2}\)
  • MGF: \(M_X(t)=\frac{\lambda}{\,\lambda - t\,}\), válida para \(t<\lambda\)
  • Propiedades: falta de memoria (única distribución continua con esta propiedad): \(P(X> s+t \mid X> s)=P(X> t)\). La suma de \(k\) exponentiales independientes \(\sim \Gamma(k,\theta=1/\lambda)\).
  • Errores comunes: asumir modelo exponencial cuando la tasa de eventos cambia en el tiempo (violando la falta de memoria). Confundir los parámetros: \(\lambda\) es tasa (media \(=1/\lambda\)). No confundir con distribuciones con cola más larga (si hay muchos valores atípicos, puede requerirse otra distribución).
Ejemplo resuelto

Ejemplo: \(X\sim \Exp(\lambda=1)\). Calcula \(E[X]\), \(\Var(X)\), \(P(X>3)\) y \(P(1\le X\le 4)\).

  1. Media: \(E[X]=1/\lambda=1\). Varianza: \(1/\lambda^2=1\).
  2. \(P(X>3)=e^{-1\cdot 3}=e^{-3}\approx0.0498\).
  3. \(P(1\le X\le 4)=F(4)-F(1)=(1-e^{-4})-(1-e^{-1})=e^{-1}-e^{-4}\approx0.3496\).
pexp(4, rate=1) - pexp(1, rate=1)
exp(-1) - exp(-4)
# media y varianza
c(media = 1/1, var = 1/1^2)

Normal \(\mathcal{N}(\mu,\sigma^2)\)

Qué es: la clásica curva de “campana de Gauss”, una distribución continua simétrica alrededor de \(\mu\). Surge teóricamente como la suma de muchos efectos aleatorios pequeños (TCL).

Cómo se usa: modelo genérico para variables con fluctuaciones alrededor de un promedio: errores de medición, estimaciones con ruido, fenónemos naturales (altura, IQ) que tienden a promediarse. Es fundamental en inferencia por el Teorema Central del Límite (distribución de promedios).

  • Soporte: \((-\infty,\infty)\)
  • Parámetros: \(\mu\in\mathbb{R}\) (media, centro de simetría), \(\sigma>0\) (desviación típica, controla la dispersión)
  • PDF: \(f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big)\)
  • CDF: no tiene forma cerrada elemental (se usa la función especial \(\Phi\) para \(Z\sim \mathcal{N}(0,1)\))
  • Media: \(E[X]=\mu\)
  • Varianza: \(\Var(X)=\sigma^2\)
  • MGF: \(M_X(t)=\exp(\mu t + \frac{1}{2}\sigma^2 t^2)\)
  • Propiedades: cualquier combinación lineal de normales es normal (familia cerrada bajo suma y afín). Por el TCL, la distribución de la media muestral (con \(n\) grande) tiende a Normal, independientemente de la distribución original (si varianza finita). Aproximaciones: p. ej., \(B(n,p)\approx \mathcal{N}(np,\;np(1-p))\) si \(n\) grande, y \(\Pois(\lambda)\approx \mathcal{N}(\lambda,\lambda)\) si \(\lambda\) grande.
  • Errores comunes: asumir que los datos “deben” ser normales (muchos fenómenos reales presentan asimetrías o colas pesadas). En muestras pequeñas, usar directamente Normal en vez de t de Student puede subestimar la incertidumbre si \(\sigma\) es estimada.
Ejemplo resuelto

Ejemplo: \(X\sim \mathcal{N}(100, 15^2)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(90\le X\le 130)\).

  1. Media: \(E[X]=100\). Varianza: \(\Var(X)=15^2=225\).
  2. Estandariza: para 90, \(z_1=\frac{90-100}{15}=-0.67\); para 130, \(z_2=\frac{130-100}{15}=2.00\).
  3. \(P(90\le X\le 130)=P(-0.67\le Z\le 2.00)=\Phi(2.00)-\Phi(-0.67)\approx0.7252\).
pnorm(130, mean=100, sd=15) - pnorm(90, mean=100, sd=15)
c(media = 100, var = 225)

Gamma \(\mathrm{Gamma}(k,\theta)\)

Qué es: distribución de la suma de \(k\) variables Exponenciales independientes de media \(\theta\) (escala). Equivale al tiempo de espera hasta el k-ésimo evento en un proceso Poisson (si \(k\) es entero).

Cómo se usa: modelar tiempos de vida agregados o espera hasta múltiples eventos. Muy utilizada en modelos de colas, y en estadística bayesiana como distribución previa/conjugada para tasas (el parámetro de la Poisson o Exponencial).

  • Soporte: \((0,\infty)\)
  • Parámetros: forma \(k>0\) (puede no ser entero), escala \(\theta>0\) (a veces se parametriza por tasa \(\beta=1/\theta\))
  • PDF: \(f(x)=\frac{1}{\Gamma(k)\,\theta^k} x^{\,k-1} e^{-x/\theta}\)
  • Media: \(E[X]=k\,\theta\)
  • Varianza: \(\Var(X)=k\,\theta^2\)
  • MGF: \(M_X(t)=(1-\theta t)^{-k}\), válida para \(t<1/\theta\)
  • Propiedades: suma de dos Gamma \(=\) Gamma con parámetro de forma sumado (si misma \(\theta\)). Casos especiales: \(k=1\) ⇒ Exponencial(\(\theta\)). Si \(k=\frac{\nu}{2}\) y \(\theta=2\), es \(\chi^2_\nu\). Para \(k\) grande, por TCL \(X\) es aproximadamente Normal(\(k\theta,\;k\theta^2\)).
  • Errores comunes: confundir la parametrización (escala \(\theta\) vs tasa \(=1/\theta\)). Suponer que \(\Gamma\) tiene falta de memoria (solo Exponencial la tiene). Si \(k\) no es entero, pierde interpretación directa de “espera de k eventos” y a veces se maneja como un ajuste flexible.
Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Gamma}(k=2,\theta=3)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 5)\).

  1. Media: \(E[X]=k\theta=2\cdot 3=6\).
  2. Varianza: \( \Var(X)=k\theta^2=2\cdot 9=18\).
  3. La CDF no es elemental: usando R, \(P(X\le 5)=\texttt{pgamma}(5,\texttt{shape}=2,\texttt{scale}=3)\approx0.4963\).
pgamma(5, shape=2, scale=3)
c(media = 2*3, var = 2*3^2)

Beta \(\mathrm{Beta}(\alpha,\beta)\)

Qué es: distribución continua definida en \([0,1]\), muy flexible para modelar probabilidades o proporciones desconocidas.

Cómo se usa: proporciones de eventos (p. ej., tasa de éxito desconocida); es la distribución previa/posterior conjugada para el parámetro \(p\) de Bernoulli/Binomial en estadística bayesiana.

  • Soporte: \([0,1]\)
  • Parámetros: \(\alpha>0,\; \beta>0\)
  • PDF: \(f(x)=\frac{1}{B(\alpha,\beta)}\,x^{\alpha-1}(1-x)^{\beta-1}\)
  • Media: \(E[X]=\frac{\alpha}{\,\alpha+\beta\,}\)
  • Varianza: \(\Var(X)=\frac{\alpha\beta}{\,(\alpha+\beta)^2(\alpha+\beta+1)\,}\)
  • MGF: no tiene forma cerrada simple
  • Propiedades: casos especiales: \(\alpha=\beta=1\) es Uniforme(0,1). Si \(\alpha,\beta\) son grandes, Beta(~) se aproxima a Normal con media \(\frac{\alpha}{\alpha+\beta}\) (y var como arriba). Conexión: si \(Y\sim F_{2\alpha,2\beta}\) entonces \(\frac{Y}{1+Y}\sim \Beta(\alpha,\beta)\) (relación con F de Snedecor).
  • Errores comunes: olvidar que solo toma valores entre 0 y 1 (no usar para variables fuera de ese rango). Confundirla con la distribución uniforme: Beta puede ser sesgada hacia 0 o 1 dependiendo de \(\alpha,\beta\). Interpretar mal los parámetros: en contexto Bayes, \(\alpha-1,\beta-1\) a veces se interpretan como pseudo-éxitos/fracasos a priori.
Ejemplo resuelto

Ejemplo: \(X\sim \Beta(\alpha=3,\beta=3)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 0.4)\).

  1. Media: \(E[X]=\frac{3}{3+3}=0.5\).
  2. Varianza: \(\Var(X)=\frac{3\cdot 3}{6^2\cdot 7}=\frac{9}{252}=0.0357\).
  3. \(P(X\le0.4)=\texttt{pbeta}(0.4,3,3)\approx0.3174\).
pbeta(0.4, shape1=3, shape2=3)
c(media = 3/(3+3), var = 3*3/((3+3)^2*(3+3+1)))

Lognormal \(\mathrm{Lognormal}(\mu,\sigma)\)

Qué es: distribución de una variable positiva cuya logaritmo se distribuye Normal: si \(\ln X \sim \mathcal{N}(\mu,\sigma^2)\), entonces \(X\) es lognormal. Es asimétrica (cola derecha) y de cola más pesada que la normal.

Cómo se usa: modelar magnitudes positivas resultantes de productos multiplicativos o crecimiento porcentual: tiempos de proceso, ingresos, tamaños de ciudades, niveles de contaminación, etc., donde tomar log produce algo aproximadamente normal.

  • Soporte: \((0,\infty)\)
  • Parámetros: \(\mu\in\mathbb{R},\; \sigma>0\) (media y desviación típica de \(\ln X\))
  • PDF: \(f(x)=\frac{1}{x\sigma\sqrt{2\pi}}\exp\!\Big(-\frac{(\ln x-\mu)^2}{2\sigma^2}\Big)\), \(x>0\)
  • Media: \(E[X]=e^{\,\mu+\sigma^2/2}\)
  • Varianza: \(\Var(X)=(e^{\sigma^2}-1)e^{\,2\mu+\sigma^2}\)
  • MGF: no existe para \(t>0\) (diverge)
  • Propiedades: mediana = \(e^{\mu}\) (la mitad de la prob. está debajo de \(e^\mu\)). Producto de variables lognormales es lognormal (suma de logs → normal). Tiene colas pesadas: la media puede ser mucho mayor que la mediana si \(\sigma\) es grande.
  • Errores comunes: aplicar métodos asumiendo simetría (mejor analizar en el espacio log). Confundir “logística” con “lognormal” (nombres). No reconocer colas pesadas: la ley de los grandes números y la varianza clásica no aplican bien si la cola es muy gruesa (requiere muestras enormes).
Ejemplo resuelto

Ejemplo: \(\ln X\sim\mathcal{N}(\mu=0,\sigma=1)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 1)\).

  1. Media: \(E[X]=e^{0+1/2}=e^{0.5}\approx1.6487\).
  2. Varianza: \((e^{1}-1)e^{2\cdot 0+1}=(e-1)e^{1}\approx4.669\).
  3. \(P(X\le 1)=P(\ln X\le 0)=P(Z\le 0)=0.5\) (la mediana es 1).
plnorm(1, meanlog=0, sdlog=1)
c(media = exp(0 + 1^2/2), var = (exp(1^2)-1)*exp(2*0 + 1^2))

Chi-cuadrada \(\chi^2_k\)

Qué es: distribución de la suma de cuadrados de \(k\) variables Normales estándar independientes (\(Z_i\sim N(0,1)\)). Equivale a \(\Gamma(k/2,\theta=2)\).

Cómo se usa: se emplea como distribución teórica para contrastes de varianza (p. ej. test de varianza de una muestra) y en pruebas de ajuste (\(\chi^2\) de Pearson). En ANOVA y regresión aparece al analizar sumas de cuadrados residuales.

  • Soporte: \((0,\infty)\)
  • Parámetro: \(k>0\) (grados de libertad, típicamente entero; \(k=n-1\) en varianza muestral de tamaño \(n\))
  • PDF: \(f(x)=\frac{1}{2^{k/2}\Gamma(k/2)}\,x^{\,k/2-1}e^{-x/2}\)
  • Media: \(E[X]=k\)
  • Varianza: \(\Var(X)=2k\)
  • MGF: \(M_X(t)=(1-2t)^{-k/2}\), válida para \(t<\frac{1}{2}\)
  • Propiedades: suma de independientes \(\chi^2\) da otra \(\chi^2\) (suma los \(k\)). Para \(k\) grande, \(\chi^2_k \approx \mathcal{N}(k, 2k)\) (distribución aproximadamente normal por TCL). Caso especial: \(\chi^2_1\) es la distribución de la distancia al cuadrado de 1 variable normal estándar.
  • Errores comunes: uso inapropiado en datos no provenientes de normales (la validez en tests depende de esa suposición). Confundir grados de libertad (ej. en \(\chi^2\) de Pearson, \(k\) depende de categorías). Suponer que es simétrica (no lo es para \(k\) pequeño, aunque se vuelve más simétrica al crecer \(k\)).
Ejemplo resuelto

Ejemplo: \(X\sim\chi^2_{6}\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 10)\).

  1. Media: \(E[X]=6\). Varianza: \(\Var(X)=2\cdot 6=12\).
  2. \(P(X\le 10)=\texttt{pchisq}(10,\texttt{df}=6)\approx0.8753\).
pchisq(10, df=6)
c(media = 6, var = 12)

t de Student \(\mathrm{t}_\nu\)

Qué es: distribución con colas más pesadas que la Normal, surge como el cociente de una Normal estándar y la raíz de una Chi-cuadrado(\(\nu\)) escalada (es decir, \(\frac{Z}{\sqrt{Y/\nu}}\) con \(Z\sim N(0,1)\), \(Y\sim\chi^2_\nu\)). Equivale a la distribución de la media estandarizada cuando la varianza es estimada.

Cómo se usa: inferencia sobre medias con muestras pequeñas (varianza poblacional desconocida). Aparece en intervalos de confianza y pruebas \(t\) de Student. También útil para modelar datos aproximadamente centrados pero con colas más pesadas que la normal (robustez a outliers moderados).

  • Soporte: \((-\infty,\infty)\)
  • Parámetro: \(\nu>0\) (grados de libertad; generalmente \(\nu=n-1\) para muestras de tamaño \(n\))
  • PDF: \(f(x)=\frac{\Gamma\!\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\,\Gamma\!\left(\frac{\nu}{2}\right)}\Big(1+\frac{x^2}{\nu}\Big)^{-\frac{\nu+1}{2}}\)
  • Media: \(0\) (si \(\nu>1\))
  • Varianza: \(\frac{\nu}{\nu-2}\) (si \(\nu>2\))
  • MGF: no tiene forma cerrada simple
  • Propiedades: colas más gruesas que la normal (kurtosis > 3). A medida que \(\nu\to\infty\), \(t_\nu \to N(0,1)\) (para \(\nu\) grande se aproxima a la Normal estándar). Es simétrica con media 0 (cuando existe) y mediana 0.
  • Errores comunes: usar Normal en lugar de \(t\) cuando \(n\) es pequeño (subestima la variabilidad). Confundir los grados de libertad (ej., para una muestra de tamaño \(n\), \(\nu=n-1\)). Suponer que con \(\nu\) pequeño la distribución es igual a la normal (en realidad tiene más probabilidad en los extremos, importante para tests).
Ejemplo resuelto

Ejemplo: \(T\sim t_{5}\). Calcula \(E[T]\), \(\Var(T)\) y \(P(-1\le T\le 1.5)\).

  1. Media: \(E[T]=0\) (para \(\nu=5>1\)).
  2. Varianza: \(\Var(T)=\frac{\nu}{\nu-2}=\frac{5}{3}\approx1.667\) (para \(\nu=5>2\)).
  3. \(P(-1\le T\le 1.5)=\texttt{pt}(1.5,5)-\texttt{pt}(-1,5)\approx0.7214\).
pt(1.5, df=5) - pt(-1, df=5)
c(media = 0, var = 5/3)

F de Snedecor \(\mathrm{F}_{d_1,d_2}\)

Qué es: distribución de la razón de dos varianzas muestrales independientes. Matemáticamente, \(F=\frac{(Y_1/d_1)}{(Y_2/d_2)}\) con \(Y_1\sim\chi^2_{d_1},\, Y_2\sim\chi^2_{d_2}\) independientes (i.e. cociente de \(\chi^2\) escaladas).

Cómo se usa: pruebas de comparación de varianzas (test \(F\) de Fisher), análisis de varianza (ANOVA) para contrastar la igualdad de medias de varios grupos (a través de razones de dispersiones), y en regresión para el test global (estadístico \(F\)).

  • Soporte: \((0,\infty)\)
  • Parámetros: \(d_1>0,\; d_2>0\) (grados de libertad del numerador y denominador, correspondientes a las dos varianzas comparadas)
  • PDF: \[f(x)=\frac{\Gamma\!\left(\frac{d_1+d_2}{2}\right)}{\Gamma\!\left(\frac{d_1}{2}\right)\Gamma\!\left(\frac{d_2}{2}\right)}\Big(\frac{d_1}{d_2}\Big)^{d_1/2} x^{\,d_1/2-1}\Big(1+\frac{d_1}{d_2}x\Big)^{-\frac{d_1+d_2}{2}}\]
  • Media: \(\frac{d_2}{\,d_2-2\,}\) (si \(d_2>2\))
  • Varianza: \(\frac{2\,d_2^2(d_1+d_2-2)}{\,d_1(d_2-2)^2(d_2-4)\,}\) (si \(d_2>4\))
  • MGF: no tiene forma cerrada simple
  • Propiedades: si \(d_2\) es muy grande, \(F_{d_1,d_2}\) se acerca a \(\frac{\chi^2_{d_1}}{d_1}\) (denominador casi constante). Relación con Beta: si \(F\sim F_{d_1,d_2}\), entonces \(\frac{d_1 F}{\,d_1 F + d_2\,}\sim \Beta(d_1/2,\,d_2/2)\). Es asimétrica (sesgada a la derecha), especialmente para \(d_1\) pequeño.
  • Errores comunes: intercambiar \(d_1, d_2\) (la cola de la distribución depende de cuál varianza va en numerador). Usar \(F\) cuando no aplican supuestos de normalidad (los tests \(F\) requieren normalidad). Suponer que \(F\) es simétrica (no lo es, siempre positiva y con cola hacia valores altos).
Ejemplo resuelto

Ejemplo: \(F\sim F_{3,15}\). Calcula \(E[F]\), \(\Var(F)\) y \(P(F\le 2)\).

  1. Media: \(E[F]=\frac{15}{15-2}=\frac{15}{13}\approx1.1538\).
  2. Varianza: \(\frac{2\cdot15^2(3+15-2)}{3(15-2)^2(15-4)}\approx1.2910\).
  3. \(P(F\le 2)=\texttt{pf}(2,3,15)\approx0.8427\).
pf(2, df1=3, df2=15)
c(media = 15/13, var = 2*15^2*(3+15-2)/(3*(15-2)^2*(15-4)))

Cauchy \(\mathrm{Cauchy}(x_0,\gamma)\)

Qué es: distribución de cola extremadamente pesada (mucho más que la normal); no tiene media ni varianza definidas. Surge como el cociente de dos normales estándar independientes (o \(t\) de Student con \(\nu=1\)). Su función de densidad tiene colas tipo \(1/x^2\).

Cómo se usa: casos con valores atípicos extremadamente frecuentes; por ejemplo, modelar fenómenos físicos con “picos resonantes” o en estadística robusta como distribución de errores cuando hay outliers severos (aunque es rara vez usada directamente).

  • Soporte: \((-\infty,\infty)\)
  • Parámetros: \(x_0\in\mathbb{R}\) (ubicación o mediana), \(\gamma>0\) (escala, controla la dispersión de la cola)
  • PDF: \(f(x)=\frac{1}{\pi}\,\frac{\gamma}{(x-x_0)^2+\gamma^2}\)
  • Media y Varianza: no definidas (integrales divergentes)
  • MGF: no definida (diverge)
  • Propiedades: mediana = \(x_0\). Es una distribución “estable” (la suma de variables Cauchy independientes sigue siendo Cauchy, con mismo \(\gamma\)). La ley de los grandes números falla: la media muestral de una Cauchy no converge a nada (por la cola tan pesada).
  • Errores comunes: intentar aplicar métodos basados en media/varianza (no existen). Confundir su apariencia con la normal: visualmente tiene un pico similar pero colas muchísimo más extendidas, lo que provoca muchos más valores extremos de lo esperado por Normal.
Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Cauchy}(0,1)\) (estándar). Calcula \(P(-1\le X\le 1)\).

  1. La CDF es \(F(x)=\frac{1}{2}+\frac{1}{\pi}\arctan\!\big(\frac{x-x_0}{\gamma}\big)\). Para \(x=1\): \(F(1)=0.5+ \frac{1}{\pi}\arctan(1)\ =0.5+ \frac{\pi/4}{\pi}=0.75\). Para \(x=-1\): \(F(-1)=0.5+\frac{1}{\pi}\arctan(-1)=0.25\).
  2. Entonces \(P(-1\le X\le 1)=F(1)-F(-1)=0.75-0.25=0.5\).
pcauchy(1) - pcauchy(-1)

Laplace \(\mathrm{Laplace}(\mu,b)\)

Qué es: distribución continua con pico central muy agudo y colas más gruesas que la normal (también llamada “doble exponencial”). Es simétrica alrededor de \(\mu\) pero tiene curtosis alta.

Cómo se usa: para modelar errores que presentan ocasionalmente saltos grandes en valor (más outliers que lo esperado normalmente). Aparece en modelos de ruido con distribución \(L_1\) y como distribución implícita en la regularización Lasso (la prior de coeficientes es Laplace).

  • Soporte: \((-\infty,\infty)\)
  • Parámetros: \(\mu\in\mathbb{R}\) (ubicación, mediana), \(b>0\) (escala)
  • PDF: \(f(x)=\frac{1}{2b}\exp\!\Big(-\frac{|x-\mu|}{\,b\,}\Big)\)
  • Media: \(E[X]=\mu\)
  • Varianza: \(\Var(X)=2b^2\)
  • MGF: \(M_X(t)=\frac{e^{\mu t}}{\,1-b^2 t^2\,}\), válida para \(|t|<\frac{1}{b}\)
  • Propiedades: es la mezcla de dos distribuciones Exponenciales (mitad de prob. a una expo positiva y mitad a una expo negativa). Tiene colas más pesadas que la normal, con curtosis 6 (frente a 3 de normal). La suma de variables Laplace (i.i.d.) tiende a normal (varianza finita → aplica TCL).
  • Errores comunes: suponer Normal cuando los datos muestran un pico excesivamente concentrado en la mediana y a la vez más valores extremos de lo esperado — en tal caso Laplace puede ser más adecuada. Confundir \(b\) con \(\sigma\): en Laplace, \(b = \sigma/\sqrt{2}\). También asumir que colas muy pesadas requieren Cauchy, cuando Laplace podría bastar (colas más leves que Cauchy pero más pesadas que Normal).
Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Laplace}(0,1)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(|X|\le 1)\).

  1. Media: \(E[X]=0\).
  2. Varianza: \(\Var(X)=2b^2=2\).
  3. \(P(|X|\le 1)=F(1)-F(-1)=0.8161-0.1839\approx0.6322\). (Nota: \(F(x)=0.5[1+\operatorname{sgn}(x-\mu)(1-e^{-|x-\mu|/b})]\)).
plaplace <- function(x, m=0, b=1){
  ifelse(x < m, 0.5*exp((x-m)/b), 1-0.5*exp(-(x-m)/b))
}
plaplace(1) - plaplace(-1)
# media y varianza
c(media = 0, var = 2)

Logística \(\mathrm{Logistic}(\mu,s)\)

Qué es: distribución continua simétrica cuya CDF tiene la conocida forma sigmoide (curva en “S”). Se parece a la normal en forma pero con colas un poco más pesadas (más curtosis).

Cómo se usa: describe procesos de crecimiento o adopción con saturación (p. ej. curvas de población, difusión de innovación). También se usa como función enlace (logit) en regresión logística para modelar probabilidades.

  • Soporte: \((-\infty,\infty)\)
  • Parámetros: \(\mu\in\mathbb{R}\) (localización o mediana), \(s>0\) (escala, proporcional al desvío típico: \( \sigma = s\pi/\sqrt{3} \))
  • PDF: \(f(x)=\frac{\exp\!\big(-\frac{x-\mu}{s}\big)}{\,s\big(1+\exp\!(-\frac{x-\mu}{s})\big)^2}\)
  • Media: \(E[X]=\mu\)
  • Varianza: \(\Var(X)=\frac{\pi^2 s^2}{3}\)
  • MGF: no tiene forma cerrada simple (depende de la función poligamma)
  • Propiedades: la CDF es \(F(x)=\frac{1}{1+\exp[-(x-\mu)/s]}\). Es simétrica alrededor de \(\mu\) (mediana = \(\mu\)). Colas más pesadas que normal pero no tan extremas como Cauchy. Puede aproximar a la normal en el centro, pero asigna mayor probabilidad a valores alejados de \(\mu\).
  • Errores comunes: confundir “logística” con “lognormal” (son muy diferentes). Interpretar mal \(s\): no es la desviación típica, aunque está relacionado (\(\sigma\approx1.814\,s\)). En modelado, suponer colas normales cuando en realidad hay evidencia de colas logísticas (por ejemplo en regresión, usar probit vs logit puede diferir en presencia de valores extremos).
Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Logistic}(0,1)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 1)\).

  1. Media: \(E[X]=0\).
  2. Varianza: \(\Var(X)=\pi^2/3\approx3.2899\).
  3. Probabilidad: \(P(X\le 1)=\frac{1}{1+e^{-1}}\approx0.7311\).
plogis(1, location=0, scale=1)
c(media = 0, var = pi^2/3)

Weibull \(\mathrm{Weibull}(\alpha,\beta)\)

Qué es: familia flexible para modelar tiempos de vida. Según el parámetro de forma \(\beta\), la tasa de fallo (hazard) puede aumentar (\(\beta>1\)), ser constante (\(\beta=1\), caso exponencial) o disminuir (\(\beta<1\)). \(\alpha\) es el parámetro de escala (relacionado con la “vida característica”).

Cómo se usa: análisis de fiabilidad de componentes, estudios de supervivencia (tiempo hasta evento), análisis de duración en economía. Permite captar escenarios de desgaste (riesgo creciente) o debilidad inicial (riesgo decreciente).

  • Soporte: \((0,\infty)\)
  • Parámetros: \(\alpha>0\) (escala), \(\beta>0\) (forma)
  • PDF: \(f(x)=\frac{\beta}{\alpha}\Big(\frac{x}{\alpha}\Big)^{\beta-1}\exp\!\Big[-\Big(\frac{x}{\alpha}\Big)^{\beta}\Big]\)
  • Media: \(E[X]=\alpha\,\Gamma\!\Big(1+\frac{1}{\beta}\Big)\)
  • Varianza: \[\Var(X)=\alpha^2\Big[\Gamma\!\Big(1+\frac{2}{\beta}\Big)-\Gamma^2\!\Big(1+\frac{1}{\beta}\Big)\Big]\]
  • MGF: no tiene forma elemental simple (involucra series de Laurent)
  • Propiedades: \(\beta=1\) da la Exponencial(\(\alpha\)). Si \(X\sim \Weibull(\alpha,\beta)\), entonces \(Y=(X/\alpha)^\beta \sim \Exp(1)\) (transformación a exponencial estándar). Para \(\beta\) grande, la densidad se concentra más alrededor de \(\alpha\) (cuando \(\beta\to\infty\), \(X\) tiende a \(\alpha\) determinista).
  • Errores comunes: usar Exponencial cuando los datos sugieren \(\beta\neq1\) (p. ej. si el riesgo de fallo aumenta con el tiempo, Weibull con \(\beta>1\) es más adecuado). Confundir \(\alpha\) con la media (no son iguales salvo ciertos casos). Olvidar revisar la función de supervivencia: un gráfico de \(\ln(-\ln(1-F(x)))\) vs \(\ln x\) lineal sugiere Weibull (a menudo no se hace esta verificación).
Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Weibull}(\alpha=2,\beta=3)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X>3)\).

  1. Media: \(E[X]=2\,\Gamma(1+1/3)\approx2\times0.893=\;1.786\).
  2. Varianza: \(2^2\big[\Gamma(1+2/3)-\Gamma^2(1+1/3)\big]\approx4\times(0.972-0.797)=0.4213\).
  3. Cola: \(P(X>3)=\exp[-(3/2)^3]=\exp(-3.375)\approx0.0342\).
pweibull(3, shape=3, scale=2, lower.tail=FALSE)
# media y varianza
c(media = 2*gamma(4/3), var = 4*(gamma(1+2/3) - gamma(4/3)^2))

Herramientas de unificación

La función generadora de momentos (MGF) de \(X\) es \(M_X(t)=E[e^{\,tX}]\) (cuando existe en un entorno de \(t=0\)). Dos ideas clave:

Transformación ubicación–escala: si \(X\) tiene CDF \(F\), entonces para \(Y=aX+b\) (con \(a>0\)) la nueva CDF es \(F_Y(y)=F\!\big(\frac{y-b}{a}\big)\). En particular, partiendo de \(Z\sim \mathcal{N}(0,1)\), cualquier normal \(X=\mu+\sigma Z\sim \mathcal{N}(\mu,\sigma^2)\). Esto muestra cómo “desestandarizar” distribuciones.

Método de la inversa: para simular una v.a. continua con CDF \(F\), se puede tomar \(U\sim U(0,1)\) y definir \(X=F^{-1}(U)\) (aplicando la inversa de la CDF al uniforme). Este principio permite generar números aleatorios de cualquier distribución a partir de uniformes.

Familias relacionadas (conexiones entre distribuciones):

Distribuciones límite y leyes asintóticas

Ley Débil de los Grandes Números (LDGN): si \(X_1,\dots,X_n\) son i.i.d. con \(E[X_i]=\mu\), entonces la media muestral \(\bar X_n = \frac{1}{n}\sum_{i=1}^n X_i\) converge en probabilidad a \(\mu\). Intuitivamente, con suficientes datos la media observada se acerca a la media real. Por ejemplo, si \(Y_n\sim \Bin(n,p)\), entonces \(\frac{Y_n}{n} \xrightarrow{P} p\) (la proporción de éxitos tiende a \(p\)).

Convergencia en distribución: decimos \(X_n \xrightarrow{D} X\) si las CDF \(F_{X_n}(x)\) tienden a \(F_X(x)\) para todo \(x\) donde \(F_X\) es continua. Es la noción de convergencia utilizada cuando hablamos de distribuciones límite (por ejemplo, la distribución de un estimador al crecer \(n\)).

TCL (Teorema Central del Límite): si \(X_1,\dots,X_n\) son i.i.d. con \(E[X_i]=\mu\) y \(\Var(X_i)=\sigma^2<\infty\), entonces la suma (o media) debidamente estandarizada tiende a una Normal. En concreto: \[\frac{\sqrt{n}\,(\bar X_n - \mu)}{\sigma} \;\xrightarrow{D}\; \mathcal{N}(0,1),\] es decir, para \(n\) grande la distribución de \(\bar X_n\) es aproximadamente \(\mathcal{N}(\mu,\sigma^2/n)\). Esto explica por qué la Normal aparece al promediar muchos efectos.

Como consecuencia del TCL, muchas distribuciones pueden aproximarse por la Normal en ciertos regímenes: por ejemplo, \(B(n,p)\approx \mathcal{N}(np,\;np(1-p))\) si \(n\) es grande y \(p\) moderado, y \(\Pois(\lambda)\approx \mathcal{N}(\lambda,\;\lambda)\) si \(\lambda\) es grande. Otra ley límite importante es la ley de los eventos raros: si \(n\to\infty\), \(p\to 0\) y \(np\to\lambda\) constante, entonces \(B(n,p)\xrightarrow{D}\Pois(\lambda)\). Esto permite usar Poisson como aproximación de una Binomial con probabilidad pequeña.

Existen otras leyes límite avanzadas, como las de valores extremos (máximos/mínimos): por ejemplo, el valor máximo de \(n\) observaciones puede converger (tras reescalarse) a distribuciones de Gumbel, Fréchet o Weibull dependiendo de la cola de la distribución original. En términos simples, el mínimo de una muestra grande tiende al límite inferior del soporte, y el máximo tiende al superior (o crece ilimitadamente si el soporte es infinito), con escalas particulares. Sin embargo, estos resultados exceden el alcance de esta guía básica.

Guía de selección de distribuciones

Árbol de decisión orientativo para la selección de distribuciones.

Árbol de decisión para elegir distribuciones

Distribuciones discretas

Distribución Escenario típico Palabras clave Supuestos Parámetros Aproximaciones válidas Test rápido Errores frecuentes
Bernoulli Un solo ensayo con resultado sí/no. Único intento, éxito/fracaso, base de Binomial. Dos resultados excluyentes; probabilidad de éxito fija \(p\). \(p\) (éxito). No aplica (caso elemental, \(n=1\)). Trivial (0 o 1; proporción de éxitos = media). Confundir qué se define como “éxito” (p vs \(1-p\)).
Binomial Conteo de éxitos en \(n\) ensayos independientes. Ensayos fijos, conteo éxitos, prob. constante. Ensayos idénticos independientes; \(p\) igual en cada intento; número de ensayos \(n\) predefinido. \(n,\,p\). \(\Pois(\lambda=np)\) si \(p\) pequeño, \(n\) grande. \(\mathcal{N}(np,\;np(1-p))\) si \(n\) grande (CLT). ¿Existe un número máximo de casos? (sí, \(n\)). ¿Media \(\approx\) var *más* pequeña? (var = \(np(1-p) Usar Binomial en muestreo sin reemplazo (debe ser Hipergeométrica). Suponer independencia cuando no la hay.
Hipergeométrica Muestreo sin reemplazo de población finita. Sin reemplazo, población, muestra, lotería. Población tamaño \(N\) con \(K\) éxitos totales; se extrae muestra \(n\) sin reemplazo. \(N,\,K,\,n\). Si \(N\) muy grande vs \(n\): \(\approx \Bin(n,\,p=K/N)\). ¿Tamaño de muestra significativo comparado con \(N\)? (si muestra es fracción grande, usar hipergeom.). Aplicar Binomial cuando hay dependencia (sin reemplazo). Ignorar corrección \(\frac{N-n}{N-1}\) en varianza.
Geométrica Ensayos hasta el primer éxito. Primer éxito, ensayos repetidos, “hasta que…”. Intentos independientes; prob. de éxito \(p\) constante; se detiene al lograr éxito. \(p\). Equivalente continua: \(\Exp(\lambda=p)\) (tiempo continuo, aproximación si \(p\) pequeño). ¿Cumple propiedad sin memoria? (sí para Geométrica). Confundir definición (si \(X\) cuenta fracasos o ensayos totales). Asumir \(p\) cambia entre ensayos.
Binomial Neg. Hasta conseguir \(r\) éxitos (cuenta fracasos). “Objetivo de \(r\) éxitos”, sobre-dispersión. Ensayos ind. con \(p\) constante; se realizan hasta lograr \(r\) éxitos. \(r,\,p\). CLT: si \(r\) grande, \(\approx \mathcal{N}(r\frac{1-p}{p},\;r\frac{1-p}{p^2})\). Caso \(r=1\) = Geométrica. ¿Var >> media? (NB tiene var = media + extra \(\frac{1-p}{p}\) factor). Confundir con Binomial (\(n\) fijo vs aleatorio). Diferentes parametrizaciones (incluir o no los éxitos en el conteo).
Poisson Conteo de eventos aleatorios en tiempo/espacio continuo. Tasa constante, eventos raros, sin límite superior. Eventos independientes, ocurren a tasa media \(\lambda\) constante; número potencialmente ilimitado en intervalo. \(\lambda\). \(\mathcal{N}(\lambda,\lambda)\) si \(\lambda\) grande. \(\Bin(n,p)\) (con \(np=\lambda\)) para eventos raros. Suma de Poisson = Poisson (tasa suma). ¿Media ≈ var? (Poisson → E ≈ Var). ¿No hay un \(n\) máximo? (Poisson ilimitado). No verificar independencia ni homogeneidad (si var >> media ⇒ no Poisson). Aplicar Poisson a datos agrupados con distintas tasas (debería ser mezcla).

Distribuciones continuas

Distribución Escenario típico Palabras clave Supuestos Parámetros Aproximaciones válidas Test rápido Errores frecuentes
Uniforme Valor desconocido pero acotado en [a,b]. Equiprobable, sin preferencia, intervalo. Soporte finito [a,b] conocido; probabilidad uniforme en todo el rango. a, b. Suma de uniformes → tiende a Normal (muchos términos, TCL). ¿Datos distribuidos uniformemente sin tendencia? (histograma plano). Usarla sin razón (pocas variables son realmente uniformes). Requiere límites claros; no usar si rango indeterminado.
Exponencial Tiempo hasta un evento aleatorio con tasa fija. Tiempo de espera, sin memoria, vida media. Riesgo constante (hazard constante); eventos independientes en tiempo continuo. \(\lambda\) (o \(\beta=1/\lambda\)). Equivalente discreto: Geométrica. Suma de k expo = Gamma(k,θ). ¿Tiene falta de memoria? (sí → exponencial). Aplicar exponencial con hazard variable (no es memoria-less). Confundir \(\lambda\) con media \(1/\lambda\).
Normal Variaciones naturales con efectos aditivos (ruido, promedios). Campana, simétrica, CLT, media±σ. Distribución aproximadamente simétrica unimodal; varianza finita; sin colas pesadas. \(\mu,\;\sigma\). Suma de muchas v.a. (TCL). Aproxima Binomial, Poisson si condiciones (np, λ grandes). ¿Histograma con forma de campana simétrica? ~68% datos en [μ±σ]? Asumir normalidad sin evidencias (datos sesgados o con outliers). Usar Normal en muestras pequeñas (debería t).
Gamma Tiempo hasta acumular k eventos (k puede no entero). Suma de exponenciales, tiempo de espera total, colas asimétricas. Fenómeno de espera/agregación de causas independientes de tasa constante (si k entero). Variable positiva asimétrica. k (forma), θ (escala). k grande: ≈ Normal (por TCL). Casos: Exp (k=1), χ² (k=ν/2, θ=2). ¿Datos positivos sesgados a derecha? (Coef. variación > 1/√k). Var > media^2/k. Parametrización (θ vs β=1/θ). Suponer memoryless para k>1. Ignorar que k no necesita ser entero.
Chi-cuadrado Suma de cuadrados de desviaciones normales. Varianza muestral, prueba χ², ANOVA. Datos ~ normales; estadístico = suma de cuadrados normalizados. ν (grados de libertad). ν grande: ≈ Normal(ν, 2ν). χ² = Gamma(ν/2, θ=2). ¿df calculado correctamente? (p.ej. n-1 para varianza). Usar χ² sin normalidad. Confundir df en tests. Esperar simetría con df bajos (no lo es).
t-Student Media muestral con varianza desconocida (n pequeño). Colas pesadas moderadas, muestras pequeñas, media poblacional. Datos ~ normales; varianza estimada. df = n-1 (una muestra). \(\nu\) (grados de libertad). \(\nu\) grande: ≈ Normal(0,1). ¿Datos simétricos con algunos valores alejados? (t se ajusta mejor que Normal). No usar t cuando corresponde (p.ej. usar Normal con n<30). Confundir df (n-1 vs n).
F de Snedecor Comparar dos varianzas (ANOVA, test F). Razón de varianzas, grupos, ANOVA. Cada varianza ~ χ²/df (normalidad en cada grupo); independientes. d1, d2 (df numerador, denominador). d2 → ∞: F(d1,d2) → χ²(d1)/d1. Relación: F ↦ Beta (ver propiedades). ¿Varianzas similares? (si F >>1 o <<1 → diferencias significativas). Intercambiar df1 y df2. Usar F sin normalidad subyacente (test inválido).
Cauchy Fenómeno con outliers extremos frecuentes. Colas ultrapesadas, sin media, resonancias. Sin varianza definida; mediana existe; a menudo modelo teórico más que empírico directo. x0, γ. Ninguna (distribución estable por sí misma; no converge a Normal por TCL). ¿Media muestral errática? (indicativo de Cauchy). Calcular promedios/varianzas (no existen). Confundir con normal (colas caen mucho más lento).
Laplace Errores con picos fuertes y outliers moderados. Doble exponencial, pico agudo, colas moderadas. Simetría alrededor de μ; colas exponenciales (no cuadráticas como normal). μ, b. Sumas → Normal (var finita). 50% central ≈ mediana ± 0.693b (donde normal tendría ±0.674σ). ¿Pico muy alto en centro + más valores alejados de lo normal? (posible Laplace). Asumir Normal con datos puntudos (Laplace mejor). Confundir b con σ (σ≈1.253*b).
Logística Curvas S de crecimiento; errores alternativos a normal. Sigmoide, saturación, logit (regresión). Simétrica, colas más largas que normal, valores en (-∞,∞). μ, s. Forma ~ Normal en centro; colas intermedias entre Normal y Cauchy. ¿Datos acumulativos en S? (posible logística). Q–Q vs normal muestra colas divergentes. Confundir con lognormal. No interpretar bien s (no es σ pero relacionado: σ=πs/√3).
Weibull Tiempos de falla con tendencia (creciente/decreciente). Fiabilidad, hazard variable, vida útil. Independencia; hazard ~ potencia de t (\(\beta-1\)). \(\beta>1\) implica desgaste acumulado, \(\beta<1\) implica período inicial de fallos. α, β. \(\beta=1\): exponencial. \(\beta→∞\): falla casi determinista cerca de α. ¿Ritmo de fallos aumenta o disminuye en datos? (Weibull ajusta eso). Usar expo cuando hay tendencia en tasa de fallos. Tomar α=media (no, media = αΓ(1+1/β)).