martes, 2 de junio de 2020

TEMA 9: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS

INFERENCIA ESTADÍSTICA

Se ocupa de generalizar los datos obtenidos en la muestra a la población de la que procede. Al extender los resultados de la muestra a un colectivo mayor (la población de la que procede), asumimos que puede haber variables o elementos en la población que difieran de los que componen la muestra, y por eso, asumimos que al inferir o generalizar los hallazgos obtenidos en la muestra a la población, tenemos alguna probabilidad de cometer un error. 





Existen 2 formas de inferencia estadística:

- Estimación del valor en la población (Parámetro) a partir de  un valor de la muestra (Estimador).
  • Estadístico o estimador: Índice que representa una información de la muestra estudiada. Suelen expresarse mediante letras del alfabeto latino Ej. Desviación estándar de la muestra (s), media aritmética ().
  • Parámetro: Cada uno de los estadísticos que tras inferirse, nos proporcionan información sobre la población. A diferencia de los estadísticos, éstos se representan mediante letras del alfabeto griego. Ej. Desviación estándar de la población (s), media aritmética de la población (µ).

- Contraste de hipótesis: a partir de valores de la  muestra, se concluye si hay diferencias entre ellos en la  población.






Puede realizarse:

- Estimación puntual: se utiliza un único valor para estimar ese parámetro, es decir, se usa un punto en concreto de la muestra para estimar el valor deseado.














- Estimación por intervalos: es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad).
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional.

Se pueden crear para cualquier  parámetro de la población
Se utilizan como indicadores de la variabilidad de las estimaciones
Cuanto más “estrecho” sea, mejor




Factores de los que depende un intervalo de confianza


El cálculo de un intervalo de confianza depende principalmente de los siguientes factores:


  • Tamaño de la muestra seleccionada: Dependiendo de la cantidad de datos que se hayan utilizado para calcular el valor muestral, este se acercará más o menos al verdadero parámetro poblacional.
  • Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra estimación acierta. Los niveles habituales son el 95% y el 99%.
  • Margen de error de nuestra estimación: Este se denomina como alfa y nos informa de la probabilidad que existe de que el valor poblacional esté fuera de nuestro intervalo.
  • Lo estimado en la muestra (media, varianza, diferencia de medias…): De esto va a depender el estadístico pivote para el cálculo del intervalo.






ERROR ESTÁNDAR 

El error estándar de la media mide la dispersión hipotética que tendrían las medias de infinitas muestras tomadas de una población determinada (mide el grado de  variabilidad en los valores del estimador en las distintas muestras  de un determinado tamaño que pudiésemos tomar de una  población)Cuanto más pequeño es el error estándar de un estimador, más nos  podemos fiar del valor de una muestra concreta.

De esta ecuación se deduce que al aumentar el tamaño muestral (n), disminuye el EE, y viceversa.

- CÁLCULO: 


  • Error estándar para una media (EEM): El EEM depende de la desviación típica de la población y del tamaño muestral, de manera que Matemáticamente, el EE se obtiene dividiendo la desviación estándar del estadístico entre la raíz cuadrada del tamaño muestral. Su fórmula es la siguiente.







  • Error estándar para una proporción (EEP): es la desviación estándar de una distribución formada “n” porcentajes resultantes de la observación de “n” muestras de esa población. nos proporciona información sobre la dispersión que presentaría el estadístico observado, tras una hipotética repetición del estudio. Se aplica cuando las variables del estudio son cualitativas o atributos, en consecuencia no podemos cuantificarlos para obtener su media aritmética.  
 
         






P= porcentaje o proporción a estimar




TEOREMA CENTRAL DEL LÍMITE


(TCL) Es una teoría estadística que establece que, dada una muestra suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución normal.
podemos definir la distribución de la media muestral de una determinada población con una varianza conocida. De manera que la distribución seguirá una distribución normal si el tamaño de la muestra es lo suficientemente grande.

Principales propiedades del teorema central del límite

  • Si el tamaño de la muestra es suficientemente grande, la distribución de las medias muestrales seguirá aproximadamente una distribución normal. El TCL considera una muestra como grande cuando el tamaño de la misma es superior a 30. Por tanto, si la muestra es superior a 30, la media muestral tendrá una función de distribución próxima a una normal. Y esto se cumple independientemente de la forma de la distribución con la que estamos trabajando.
  • La media poblacional y la media muestral serán iguales. Es decir, la media de la distribución de todas las medias muestrales será igual a la media del total de la población.
  • La varianza de la distribución de las medias muestrales será σ²/n. Que es la varianza de la población dividido entre el tamaño de la muestra.






Se calcula considerando que el estimador muestral  sigue una distribución normal, como establece la  teoría central del límite.





No hay comentarios:

Publicar un comentario

REFLEXIÓN FINAL ACERCA DE MI BLOG

HOLA A TOD@S, llegados a este punto del curso, en esta entrada vengo a despedirme de lo que ha sido un blog lleno de intentos de explicac...