Clase 10: Muestras Aleatorias y Teorema Central del Límite
📚 Introducción
Esta clase marca el inicio del estudio de la inferencia estadística, introduciendo conceptos fundamentales como muestras aleatorias, estadísticos y distribuciones muestrales. El Teorema Central del Límite es uno de los resultados más importantes en toda la estadística, pues justifica el uso de la distribución Normal en la inferencia estadística, incluso cuando los datos no provienen de una distribución Normal.
Objetivos de la Clase
Comprender el concepto de muestra aleatoria
Definir y trabajar con estadísticos (media muestral, varianza muestral)
Entender la distribución muestral de un estadístico
Conocer las propiedades de la media y varianza muestrales
Comprender el concepto de convergencia en distribución
Aplicar el Teorema Central del Límite
Conocer distribuciones muestrales en el modelo Normal
1. Muestra Aleatoria
1.1 Definición
Definición - Muestra Aleatoria
Las variables aleatorias X1,...,Xn se denominan una muestra aleatoria de tamaño n desde la población fX, si X1,...,Xn son variables aleatorias mutuamente independientes y la función de probabilidad o función de densidad marginal de cada Xi es fX.
Notación:
X1,...,Xn∼iidfX
iid: independientes e idénticamente distribuidas
Interpretación
Una muestra aleatoria representa observaciones obtenidas de forma independiente de la misma población. Cada observación:
Es independiente de las demás
Proviene de la misma distribución de probabilidad
Tiene la misma esperanza μ y varianza σ2
1.2 Ejemplos Prácticos
Ejemplo 1: Generar Muestra Aleatoria en R
Ejercicio 1: Utilice la función sample de R para generar una muestra aleatoria de tamaño 5 de la distribución de las alturas de los alumnos del curso.
# Supongamos que tenemos las alturas de todos los alumnosalturas <- c(165, 170, 168, 172, 175, 180, 169, 171, 174, 178)# Generar muestra aleatoria de tamaño 5muestra <- sample(alturas, size = 5)muestra
Ejemplo 2: Muestra desde una Distribución Poisson
Ejercicio 2: Utilice la función rpois de R para generar una muestra aleatoria de tamaño 5 de la distribución Poisson de parámetro λ=2.
2. Función de Probabilidad/Densidad Conjunta de una Muestra
2.1 Caso Discreto
Función de Probabilidad Conjunta (Caso Discreto)
Para una muestra aleatoria X=(X1,...,Xn) de una variable aleatoria discreta, X, su función de probabilidad conjunta corresponde a:
P(X=x)=∏i=1nP(X=xi)
donde x=(x1,...,xn).
Consecuencia de la Independencia
Esta fórmula es consecuencia directa de la independencia de las observaciones. La probabilidad conjunta es el producto de las probabilidades individuales.
2.2 Caso Continuo
Función de Densidad Conjunta (Caso Continuo)
Para una muestra aleatoria X=(X1,...,Xn) de una variable aleatoria continua, X, su función de densidad conjunta corresponde a:
fX(x)=∏i=1nfX(xi)
donde fX corresponde a la función de densidad de X y x=(x1,...,xn).
2.3 Ejemplo de Aplicación
Ejercicio 3: Función de Probabilidad Conjunta
Obtenga la función de probabilidad conjunta de la muestra en el Ejercicio 2, y evalúela en los datos.
Solución:
Para una muestra de Poisson(λ=2), la función de probabilidad de cada observación es:
P(X=x)=x!e−2⋅2x
La función de probabilidad conjunta para la muestra (x1,...,x5) es:
P(X=x)=∏i=15xi!e−2⋅2xi
Sea X1,...,Xn una muestra aleatoria de tamaño n de una población y sea T(x1,...,xn) una función real-valorada o vector-valorada, cuyo dominio incluye el espacio muestral de (X1,...,Xn).
Entonces la variable aleatoria o vector aleatorio Y=T(X1,...,Xn) se denomina estadístico.
La distribución de probabilidad de Y se denomina la distribución muestral de Y.
Concepto Clave
Un estadístico es simplemente una función de la muestra. Como la muestra es aleatoria, el estadístico también es una variable aleatoria con su propia distribución de probabilidad.
3.2 Media Muestral
Definición - Media Muestral
La media muestral es el promedio aritmético de los valores de una muestra aleatoria:
Xˉ=nX1+⋯+Xn=n1∑i=1nXi
Notación
Xˉ (con barra) denota la media muestral (variable aleatoria)
xˉ (minúscula con barra) denota el valor observado de la media muestral
μ denota la media poblacional (parámetro fijo, desconocido)
3.3 Varianza Muestral
Definición - Varianza Muestral
La varianza muestral es el estadístico definido por:
S2=n−11∑i=1n(Xi−Xˉ)2
La desviación estándar muestral es el estadístico definido por S=S2.
¿Por qué n-1?
La división por n−1 (en lugar de n) hace que S2 sea un estimador insesgado de σ2, es decir, E(S2)=σ2. Esta corrección se conoce como corrección de Bessel.
3.4 Ejemplo: Cálculo en R
Ejercicio 4: Media y Varianza Muestrales
Utilice R para obtener media y varianza muestrales en el Ejercicio 2. Repita con nuevas muestras de tamaño 5 y compárelos con los valores anteriores.
Utilice R para obtener 100 muestras de 20 observaciones a partir de una distribución Poisson(2). Para cada una de ellas, obtenga la media y varianza muestrales. Luego, obtenga histogramas de ambos estadísticos por separado y comente.
# Parámetrosn_muestras <- 100n_obs <- 20lambda <- 2# Almacenar medias y varianzasmedias <- numeric(n_muestras)varianzas <- numeric(n_muestras)# Generar muestras y calcular estadísticosfor(i in 1:n_muestras) { muestra <- rpois(n_obs, lambda) medias[i] <- mean(muestra) varianzas[i] <- var(muestra)}# Histogramaspar(mfrow = c(1, 2))hist(medias, main = "Distribución de la Media Muestral", xlab = "Media")abline(v = lambda, col = "red", lwd = 2) # Valor teóricohist(varianzas, main = "Distribución de la Varianza Muestral", xlab = "Varianza")abline(v = lambda, col = "red", lwd = 2) # Valor teórico (para Poisson, σ²=λ)
Observación: El histograma de las medias muestrales tiene forma aproximadamente Normal (¡TCL en acción!) y está centrado en λ=2.
5. Convergencia en Distribución
5.1 Definición
Definición - Convergencia en Distribución
Una secuencia de variables aleatorias X1,X2,...converge en distribución a una variable aleatoria X si:
limn→∞FXn(x)=FX(x)
para todo punto x donde FX(x) es continua.
Notación: XnDX∼F
Interpretación
Convergencia en distribución significa que, conforme n aumenta, la función de distribución de Xn se aproxima a la función de distribución de X.
Esto NO significa que Xn converge a X, sino que sus distribuciones convergen.
6. Teorema Central del Límite (TCL)
6.1 Enunciado del Teorema
Teorema - Teorema Central del Límite
Sean X1,X2,... variables aleatorias iid con E(Xi)=μ y 0<Var(Xi)=σ2<∞.
Sea Xˉn=n1∑i=1nXi. Entonces:
nσ(Xˉn−μ)DZ∼N(0,1)
y
nσ(∑i=1nXi−nμ)DZ∼N(0,1)
Forma Práctica del TCL
El teorema permite utilizar que, bajo las condiciones descritas, y para un tamaño de muestra suficientemente grande:
Xˉ∼⋅N(μ,nσ2)
y
∑i=1nXi∼⋅N(nμ,nσ2)
donde ∼⋅ significa “aproximadamente distribuido como”.
6.2 Condiciones de Aplicación
¿Cuándo es Válido el TCL?
Distribución exactamente Normal: Si las observaciones originales provienen de una distribución Normal, entonces Xˉ es exactamente Normal para cualquier n.
Distribución no Normal: El tamaño de muestra requerido depende de la forma de la distribución original:
Distribuciones simétricas: n≥15 suele ser suficiente
Distribuciones moderadamente asimétricas: n≥30 es recomendable
Distribuciones muy asimétricas: Se requiere n mayor (50, 100, etc.)
Regla práctica común: n≥30
6.3 Importancia del TCL
¿Por qué es tan Importante el TCL?
El Teorema Central del Límite es fundamental porque:
Justifica el uso de la Normal en inferencia estadística, incluso cuando los datos no son normales
Es universal: Se aplica a cualquier distribución con varianza finita
Permite hacer probabilidades sobre medias muestrales sin conocer la distribución exacta de los datos
Base de intervalos de confianza y pruebas de hipótesis
6.4 Visualización del Efecto del Tamaño de Muestra
Efecto del Tamaño de Muestra
Para Xˉ∼N(μ,nσ2):
n pequeño: La distribución de Xˉ tiene mayor dispersión
n grande: La distribución de Xˉ se concentra más alrededor de μ
n→∞: Var(Xˉ)=nσ2→0
La media muestral es más precisa con muestras grandes.
7. Aplicación del Teorema Central del Límite
7.1 Ejemplo Completo
Ejercicio 6: Valores Comerciales de Vehículos
El valor comercial de los vehículos de una comuna, medido en millones de pesos, sigue una distribución de probabilidad de media μ=4 y desviación estándar 1.2. Si se toma una muestra aleatoria de 35 vehículos de esta comuna:
1. ¿Qué dice el Teorema Central del Límite sobre la distribución del promedio de la muestra?
Solución:
Tenemos:
μ=4
σ=1.2
n=35
Por el TCL (dado que n=35≥30):
Xˉ∼⋅N(4,351.22)=N(4,0.0411)
Es decir, la media muestral sigue aproximadamente una distribución Normal con media 4 y varianza 0.0411 (desviación estándar ≈0.203).
2. Encuentre un valor aproximado para la probabilidad de que el promedio de los valores comerciales de estos 35 vehículos sea menor a 4.3 millones.
Solución:
Queremos P(Xˉ<4.3).
Estandarizando:
P(Xˉ<4.3)=P(351.2Xˉ−4<351.24.3−4)
=P(Z<0.2030.3)=P(Z<1.48)≈0.9306
3. Encuentre un valor aproximado para la probabilidad de que este promedio sea mayor a 3.8 millones.
Solución:
Queremos P(Xˉ>3.8).
P(Xˉ>3.8)=1−P(Xˉ<3.8)
=1−P(Z<0.2033.8−4)=1−P(Z<−0.99)
=1−0.1611=0.8389
4. Encuentre un valor aproximado para la probabilidad de que este promedio esté entre 3.7 y 4.1 millones.
Solución:
P(3.7<Xˉ<4.1)=P(Xˉ<4.1)−P(Xˉ<3.7)
=P(Z<0.2034.1−4)−P(Z<0.2033.7−4)
=P(Z<0.49)−P(Z<−1.48)
≈0.6879−0.0694=0.6185
8. Distribuciones Muestrales en el Modelo Normal
8.1 Teorema para Muestras Normales
Teorema - Distribuciones Muestrales bajo Normalidad
Sea X1,...,Xn una muestra aleatoria proveniente de una distribución N(μ,σ2).
Sean Xˉ y S2 su media y varianza muestral, respectivamente. Entonces:
Xˉ∼N(μ,nσ2)
σ2(n−1)S2∼χn−12
donde χn−12 corresponde a la distribución Chi-Cuadrado con (n−1) grados de libertad.
Adicionalmente, Xˉ y S2 son independientes.
Diferencia con el TCL
TCL: Válido para cualquier distribución (con n grande)
Este teorema: Válido solo para muestras normales, pero para cualquiern
8.2 Distribución Chi-Cuadrado
Distribución Chi-Cuadrado
La distribución Chi-Cuadrado con k grados de libertad, denotada χk2, tiene:
Soporte: (0,∞) (solo valores positivos)
Media: E(χk2)=k
Varianza: Var(χk2)=2k
Forma: Asimétrica hacia la derecha (sesgo positivo)
Conforme k aumenta, se hace más simétrica
Aplicación Práctica
La distribución χ2 es fundamental para:
Construir intervalos de confianza para la varianza
Pruebas de hipótesis sobre varianzas
Pruebas de bondad de ajuste
Pruebas de independencia en tablas de contingencia
El Teorema Central del Límite es el resultado más importante de esta clase y uno de los más importantes de toda la estadística. Practica su aplicación en diversos contextos. Los ejercicios de simulación son especialmente útiles para desarrollar intuición sobre cómo funciona el TCL.
✅ Checklist de Estudio
Lista de Verificación
Entiendo qué es una muestra aleatoria y la notación iid
Puedo calcular la función de probabilidad/densidad conjunta de una muestra
Comprendo la diferencia entre estadístico y parámetro
Sé calcular media y varianza muestrales
Conozco las propiedades de Xˉ y S2
Entiendo por qué Var(Xˉ)=nσ2
Comprendo el concepto de convergencia en distribución
Puedo enunciar y aplicar el Teorema Central del Límite
Sé cuándo es válido usar el TCL
Puedo estandarizar correctamente Xˉ para calcular probabilidades
Conozco las distribuciones muestrales bajo normalidad
Entiendo la distribución Chi-Cuadrado y sus aplicaciones