Clase 10: Muestras Aleatorias y Teorema Central del Límite

📚 Introducción

Esta clase marca el inicio del estudio de la inferencia estadística, introduciendo conceptos fundamentales como muestras aleatorias, estadísticos y distribuciones muestrales. El Teorema Central del Límite es uno de los resultados más importantes en toda la estadística, pues justifica el uso de la distribución Normal en la inferencia estadística, incluso cuando los datos no provienen de una distribución Normal.

Objetivos de la Clase

  • Comprender el concepto de muestra aleatoria
  • Definir y trabajar con estadísticos (media muestral, varianza muestral)
  • Entender la distribución muestral de un estadístico
  • Conocer las propiedades de la media y varianza muestrales
  • Comprender el concepto de convergencia en distribución
  • Aplicar el Teorema Central del Límite
  • Conocer distribuciones muestrales en el modelo Normal

1. Muestra Aleatoria

1.1 Definición

Definición - Muestra Aleatoria

Las variables aleatorias se denominan una muestra aleatoria de tamaño desde la población , si son variables aleatorias mutuamente independientes y la función de probabilidad o función de densidad marginal de cada es .

Notación:

iid: independientes e idénticamente distribuidas

Interpretación

Una muestra aleatoria representa observaciones obtenidas de forma independiente de la misma población. Cada observación:

  • Es independiente de las demás
  • Proviene de la misma distribución de probabilidad
  • Tiene la misma esperanza y varianza

1.2 Ejemplos Prácticos

Ejemplo 1: Generar Muestra Aleatoria en R

Ejercicio 1: Utilice la función sample de R para generar una muestra aleatoria de tamaño 5 de la distribución de las alturas de los alumnos del curso.

# Supongamos que tenemos las alturas de todos los alumnos
alturas <- c(165, 170, 168, 172, 175, 180, 169, 171, 174, 178)
 
# Generar muestra aleatoria de tamaño 5
muestra <- sample(alturas, size = 5)
muestra

Ejemplo 2: Muestra desde una Distribución Poisson

Ejercicio 2: Utilice la función rpois de R para generar una muestra aleatoria de tamaño 5 de la distribución Poisson de parámetro .

# Generar muestra aleatoria de Poisson(2)
muestra_poisson <- rpois(n = 5, lambda = 2)
muestra_poisson
# Por ejemplo: [1] 1 3 2 1 4

2. Función de Probabilidad/Densidad Conjunta de una Muestra

2.1 Caso Discreto

Función de Probabilidad Conjunta (Caso Discreto)

Para una muestra aleatoria de una variable aleatoria discreta, , su función de probabilidad conjunta corresponde a:

donde .

Consecuencia de la Independencia

Esta fórmula es consecuencia directa de la independencia de las observaciones. La probabilidad conjunta es el producto de las probabilidades individuales.

2.2 Caso Continuo

Función de Densidad Conjunta (Caso Continuo)

Para una muestra aleatoria de una variable aleatoria continua, , su función de densidad conjunta corresponde a:

donde corresponde a la función de densidad de y .

2.3 Ejemplo de Aplicación

Ejercicio 3: Función de Probabilidad Conjunta

Obtenga la función de probabilidad conjunta de la muestra en el Ejercicio 2, y evalúela en los datos.

Solución:

Para una muestra de Poisson(), la función de probabilidad de cada observación es:

La función de probabilidad conjunta para la muestra es:

Si los datos fueron :


3. Estadísticos

3.1 Definición General

Definición - Estadístico

Sea una muestra aleatoria de tamaño de una población y sea una función real-valorada o vector-valorada, cuyo dominio incluye el espacio muestral de .

Entonces la variable aleatoria o vector aleatorio se denomina estadístico.

La distribución de probabilidad de se denomina la distribución muestral de .

Concepto Clave

Un estadístico es simplemente una función de la muestra. Como la muestra es aleatoria, el estadístico también es una variable aleatoria con su propia distribución de probabilidad.

3.2 Media Muestral

Definición - Media Muestral

La media muestral es el promedio aritmético de los valores de una muestra aleatoria:

Notación

  • (con barra) denota la media muestral (variable aleatoria)
  • (minúscula con barra) denota el valor observado de la media muestral
  • denota la media poblacional (parámetro fijo, desconocido)

3.3 Varianza Muestral

Definición - Varianza Muestral

La varianza muestral es el estadístico definido por:

La desviación estándar muestral es el estadístico definido por .

¿Por qué n-1?

La división por (en lugar de ) hace que sea un estimador insesgado de , es decir, . Esta corrección se conoce como corrección de Bessel.

3.4 Ejemplo: Cálculo en R

Ejercicio 4: Media y Varianza Muestrales

Utilice R para obtener media y varianza muestrales en el Ejercicio 2. Repita con nuevas muestras de tamaño 5 y compárelos con los valores anteriores.

# Primera muestra
muestra1 <- rpois(n = 5, lambda = 2)
media1 <- mean(muestra1)
varianza1 <- var(muestra1)
 
# Segunda muestra
muestra2 <- rpois(n = 5, lambda = 2)
media2 <- mean(muestra2)
varianza2 <- var(muestra2)
 
# Comparar
cat("Muestra 1: media =", media1, ", varianza =", varianza1, "\n")
cat("Muestra 2: media =", media2, ", varianza =", varianza2, "\n")

Conclusión Importante

Los estadísticos corresponden a variables aleatorias y, por ello, tienen una distribución, media, varianza, y todo lo que se deriva de ello.

Cada vez que tomamos una muestra diferente, obtenemos valores diferentes de y .


4. Propiedades de la Media y Varianza Muestrales

4.1 Teorema Fundamental

Teorema - Propiedades de los Estadísticos Muestrales

Sea una muestra aleatoria desde una población con media y varianza . Entonces:

(a)

(b)

(c)

Interpretaciones

Propiedad (a): La media muestral es un estimador insesgado de . En promedio, es igual a .

Propiedad (b): La varianza de disminuye con . A mayor tamaño de muestra, más precisa es la estimación.

Propiedad (c): La varianza muestral es un estimador insesgado de .

4.2 Demostración de (a)

4.3 Demostración de (b)

Por independencia de las observaciones:

4.4 Simulación

Ejercicio 5: Visualizar Distribuciones Muestrales

Utilice R para obtener 100 muestras de 20 observaciones a partir de una distribución Poisson(2). Para cada una de ellas, obtenga la media y varianza muestrales. Luego, obtenga histogramas de ambos estadísticos por separado y comente.

# Parámetros
n_muestras <- 100
n_obs <- 20
lambda <- 2
 
# Almacenar medias y varianzas
medias <- numeric(n_muestras)
varianzas <- numeric(n_muestras)
 
# Generar muestras y calcular estadísticos
for(i in 1:n_muestras) {
  muestra <- rpois(n_obs, lambda)
  medias[i] <- mean(muestra)
  varianzas[i] <- var(muestra)
}
 
# Histogramas
par(mfrow = c(1, 2))
hist(medias, main = "Distribución de la Media Muestral", xlab = "Media")
abline(v = lambda, col = "red", lwd = 2)  # Valor teórico
 
hist(varianzas, main = "Distribución de la Varianza Muestral", xlab = "Varianza")
abline(v = lambda, col = "red", lwd = 2)  # Valor teórico (para Poisson, σ²=λ)

Observación: El histograma de las medias muestrales tiene forma aproximadamente Normal (¡TCL en acción!) y está centrado en .


5. Convergencia en Distribución

5.1 Definición

Definición - Convergencia en Distribución

Una secuencia de variables aleatorias converge en distribución a una variable aleatoria si:

para todo punto donde es continua.

Notación:

Interpretación

Convergencia en distribución significa que, conforme aumenta, la función de distribución de se aproxima a la función de distribución de .

Esto NO significa que converge a , sino que sus distribuciones convergen.


6. Teorema Central del Límite (TCL)

6.1 Enunciado del Teorema

Teorema - Teorema Central del Límite

Sean variables aleatorias iid con y .

Sea . Entonces:

y

Forma Práctica del TCL

El teorema permite utilizar que, bajo las condiciones descritas, y para un tamaño de muestra suficientemente grande:

y

donde significa “aproximadamente distribuido como”.

6.2 Condiciones de Aplicación

¿Cuándo es Válido el TCL?

  • Distribución exactamente Normal: Si las observaciones originales provienen de una distribución Normal, entonces es exactamente Normal para cualquier .

  • Distribución no Normal: El tamaño de muestra requerido depende de la forma de la distribución original:

    • Distribuciones simétricas: suele ser suficiente
    • Distribuciones moderadamente asimétricas: es recomendable
    • Distribuciones muy asimétricas: Se requiere mayor (50, 100, etc.)

Regla práctica común:

6.3 Importancia del TCL

¿Por qué es tan Importante el TCL?

El Teorema Central del Límite es fundamental porque:

  1. Justifica el uso de la Normal en inferencia estadística, incluso cuando los datos no son normales
  2. Es universal: Se aplica a cualquier distribución con varianza finita
  3. Permite hacer probabilidades sobre medias muestrales sin conocer la distribución exacta de los datos
  4. Base de intervalos de confianza y pruebas de hipótesis

6.4 Visualización del Efecto del Tamaño de Muestra

Efecto del Tamaño de Muestra

Para :

  • pequeño: La distribución de tiene mayor dispersión
  • grande: La distribución de se concentra más alrededor de
  • :

La media muestral es más precisa con muestras grandes.


7. Aplicación del Teorema Central del Límite

7.1 Ejemplo Completo

Ejercicio 6: Valores Comerciales de Vehículos

El valor comercial de los vehículos de una comuna, medido en millones de pesos, sigue una distribución de probabilidad de media y desviación estándar 1.2. Si se toma una muestra aleatoria de 35 vehículos de esta comuna:

1. ¿Qué dice el Teorema Central del Límite sobre la distribución del promedio de la muestra?

Solución:

Tenemos:

Por el TCL (dado que ):

Es decir, la media muestral sigue aproximadamente una distribución Normal con media 4 y varianza 0.0411 (desviación estándar ).

2. Encuentre un valor aproximado para la probabilidad de que el promedio de los valores comerciales de estos 35 vehículos sea menor a 4.3 millones.

Solución:

Queremos .

Estandarizando:

3. Encuentre un valor aproximado para la probabilidad de que este promedio sea mayor a 3.8 millones.

Solución:

Queremos .

4. Encuentre un valor aproximado para la probabilidad de que este promedio esté entre 3.7 y 4.1 millones.

Solución:


8. Distribuciones Muestrales en el Modelo Normal

8.1 Teorema para Muestras Normales

Teorema - Distribuciones Muestrales bajo Normalidad

Sea una muestra aleatoria proveniente de una distribución .

Sean y su media y varianza muestral, respectivamente. Entonces:

donde corresponde a la distribución Chi-Cuadrado con grados de libertad.

  1. Adicionalmente, y son independientes.

Diferencia con el TCL

  • TCL: Válido para cualquier distribución (con grande)
  • Este teorema: Válido solo para muestras normales, pero para cualquier

8.2 Distribución Chi-Cuadrado

Distribución Chi-Cuadrado

La distribución Chi-Cuadrado con grados de libertad, denotada , tiene:

  • Soporte: (solo valores positivos)
  • Media:
  • Varianza:
  • Forma: Asimétrica hacia la derecha (sesgo positivo)
  • Conforme aumenta, se hace más simétrica

Aplicación Práctica

La distribución es fundamental para:

  • Construir intervalos de confianza para la varianza
  • Pruebas de hipótesis sobre varianzas
  • Pruebas de bondad de ajuste
  • Pruebas de independencia en tablas de contingencia

8.3 Propiedades Útiles

Propiedades de las Distribuciones Muestrales

Si :

  1. Media estandarizada:

  2. Suma de observaciones:

  3. Varianza escalada:


🎯 Conceptos Clave para Repasar

Resumen de Conceptos

  1. Muestra aleatoria: Variables iid,
  2. Estadístico: Función de la muestra,
  3. Media muestral:
  4. Varianza muestral:
  5. Propiedades: , ,
  6. TCL: Para grande,
  7. Muestras normales: exactamente,
  8. Regla práctica: TCL válido para

🚨 Errores Comunes

Error 1: Confundir \bar{X} con \mu

  • Incorrecto: Pensar que es siempre igual a
  • Correcto: es una variable aleatoria que varía de muestra a muestra. En promedio,

Error 2: Usar TCL con muestras pequeñas

  • Incorrecto: Aplicar TCL con cuando la distribución es muy asimétrica
  • Correcto: Verificar que o que la distribución original sea aproximadamente Normal

Error 3: Olvidar dividir por \sqrt{n} al estandarizar

  • Incorrecto:
  • Correcto:

Error 4: Confundir \sigma^2 con S^2

  • Incorrecto: Usar (varianza muestral) cuando se necesita (varianza poblacional)
  • Correcto: es el parámetro poblacional (fijo, desconocido), es el estimador (aleatorio)

Error 5: No verificar independencia

  • Incorrecto: Aplicar TCL a observaciones dependientes o correlacionadas
  • Correcto: El TCL requiere observaciones independientes

📝 Ejercicios Propuestos

Ejercicios de Práctica

  1. Sea . Calcule:

    • y
    • (use TCL)
  2. En una fábrica, el peso de productos sigue una distribución con media 500g y desviación estándar 15g. Si se toman 40 productos al azar:

    • ¿Cuál es la probabilidad de que el peso promedio exceda 505g?
    • ¿Entre qué valores estará el peso promedio con 95% de probabilidad?
  3. Demuestre que (Hint: Use )

  4. Si :

    • ¿Cuál es la distribución exacta de ?
    • Calcule
    • ¿Cuál es la distribución de ?
  5. Simule en R:

    • 1000 muestras de tamaño 30 de una distribución Uniforme(0, 10)
    • Para cada muestra, calcule
    • Grafique el histograma de las 1000 medias muestrales
    • ¿Qué observa? ¿Por qué?

📚 Referencias

Lectura Principal

Enlaces Relacionados


Sugerencia de Estudio

El Teorema Central del Límite es el resultado más importante de esta clase y uno de los más importantes de toda la estadística. Practica su aplicación en diversos contextos. Los ejercicios de simulación son especialmente útiles para desarrollar intuición sobre cómo funciona el TCL.


✅ Checklist de Estudio

Lista de Verificación

  • Entiendo qué es una muestra aleatoria y la notación iid
  • Puedo calcular la función de probabilidad/densidad conjunta de una muestra
  • Comprendo la diferencia entre estadístico y parámetro
  • Sé calcular media y varianza muestrales
  • Conozco las propiedades de y
  • Entiendo por qué
  • Comprendo el concepto de convergencia en distribución
  • Puedo enunciar y aplicar el Teorema Central del Límite
  • Sé cuándo es válido usar el TCL
  • Puedo estandarizar correctamente para calcular probabilidades
  • Conozco las distribuciones muestrales bajo normalidad
  • Entiendo la distribución Chi-Cuadrado y sus aplicaciones

🏷️ Tags

estadistica muestra-aleatoria estadisticos media-muestral varianza-muestral teorema-central-limite distribucion-muestral convergencia distribucion-chi-cuadrado clase-10 clase