jueves, 14 de mayo de 2015

Cómo calcular el intervalo de confianza

Un intervalo de confianza (o nivel de confianza) es un indicador de la precisión de una medición que hiciste. También es un indicador de cuán estable es tu valor estimado, el cual es la medida de lo cerca que estará la medición hecha, respecto al valor estimado original si repitieras tu experimento. Sigue los pasos a continuación para calcular el intervalo de confianza para tus datos.

Supongamos que trabajas con la siguiente situación: el peso promedio de un estudiante de género masculino en la Universidad Sevilla es de 82 kg. Analizarás qué tan precisamente podrás predecir el peso de los estudiantes varones de la universidad Sevilla dentro de un intervalo de confianza dado.(95%)

1.Selecciona una muestra de tu población escogida. Ésta es la que utilizarás en la recolección de datos para evaluar tu hipótesis. Supongamos que seleccionaste, al azar, 1000 estudiantes hombres.


2.Calcula el promedio (media) y la desviación estándar de tu muestra. Escoge un dato estadístico de tu muestra (por ejemplo, el promedio o la desviación estándar) que quieras usar para estimar el parámetro de tu población escogida. Un parámetro de población es un valor que representa una característica particular de la población. Así es cómo puedes encontrar el promedio y la desviación estándar de tu muestra:
  • Para calcular el promedio (o media) de los datos de la muestra, solo suma todos los pesos de los 1000 hombres que seleccionaste y divide el resultado entre 1000; es decir, el número de hombres. Esto debería darte, por ejemplo, un valor del peso promedio de 84,4 kg 
  • Para calcular la desviación estándar de la muestra, tendrás que encontrar el promedio o la media de los datos. Luego, tendrás que encontrar la varianza de los datos o el promedio al cuadrado de las diferencias con respecto al valor medio. Una vez que encuentres este número, solo calcula su raíz cuadrada. Supongamos que la desviación en este caso sea 14 kg  (observa que esta información algunas veces podría estar disponible para ti al resolver un problema de estadística).

3. Elige el nivel de confianza que desees. Los niveles de confianza más comúnmente usados son 90 por ciento, 95 por ciento y 99 por ciento. Al resolver un problema, es posible que este dato esté disponible para ti. Supongamos que escogiste 95%.


4.Calcula tu margen de error. Puedes encontrar el margen de error usando la siguiente fórmula: Za/2 * σ/√(n). Za/2 = coeficiente de confianza, donde a = nivel de confianza, σ = desviación estándar, n = tamaño de muestra. Esta es otra forma de decir que deberías multiplicar el valor crítico por el error estándar. Así es como puedes resolver esta fórmula por partes:
  • Para encontrar el valor crítico, o Za/2: en este caso el nivel de confianza es 95%. Convierte el porcentaje a un número decimal 0,95 y divídelo entre 2 para tener 0,475. Luego, revisa la tabla de valores z para encontrar el valor que corresponde a 0,475. Verás que el valor más cercano es 1,96 en la intersección de la fila 1,9 y la columna 0,6.
  • Calcula el error estándar: toma la desviación estándar, 14 kg (30 lb), y divídela por la raíz cuadrada del tamaño de la muestra, 1000. Obtendrás 14/31,6 o 0,44 kg (0,95 lb).
  • Multiplica 1,96 por 0,44 (tu valor crítico por tu error estándar) para obtener 0,86; tu margen de error.


5.Expresa tu intervalo de confianza. Para expresar el intervalo de confianza, simplemente tienes que tomar el promedio o la media (82), y escribirla antes de ± y el margen de error. La respuesta es: 82 ± 0,86. Puedes encontrar los límites superior e inferior del intervalo de confianza, sumando y restando el margen de error a la media. Entonces, tu límite inferior es 82 – 0,86 o 81,14 kg (178,14 lb), y tu límite superior es 82 + 0,86, o 82,86 kg (181,86 lb).
  • También puedes usar esta fórmula práctica para encontrar el intervalo de confianza: x̅ ± Za/2 * σ/√(n). Aquí, x̅ representa la media.



UNIDAD IV
PRUEBAS CHI-CUADRADA Y ESTADISTICA NO PARAMETRICA
Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre concuerdan exactamente con los resultados teóricos esperados, según las reglas de probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 caras y 50 cruces cuando se lanza 100 veces una moneda bien hecha, es raro que se obtengan exactamente estos resultados.

Supóngase que en una determinada muestra se observan una serie de posibles sucesos E1, E2, E3, . . . , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas frecuencias observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas frecuencias teóricas o esperadas.
A menudo se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E1 y E2 como, por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con los métodos de las unidades anteriores. En esta unidad se considera el problema general.

Definición de X2  (Chi cuadrado)Una medida de la discrepancia existente entre las frecuencias observadas y esperadas es suministrada por el estadístico X2, dado por:
donde si el total de frecuencias es N,
Si X2 = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si X2>0, no coinciden exactamente. A valores mayores de X2, mayores son las discrepancias entre las frecuencias observadas y esperadas.
Si las frecuencias esperadas son al menos iguales a 5, la aproximación mejora para valores superiores.
El número de grados de libertad  está dado por:
 = k – 1 – m
en donde:
K = número de clasificaciones en el problema.
m = número de parámetros estimados a partir de los datos muestrales para obtener los valores esperados.

En la práctica, las frecuencias esperadas se calculan de acuerdo con la hipótesis Ho. Si bajo esta hipótesis el valor calculado de X2 dado es mayor que algún valor crítico, se deduce que las frecuencias observadas difieren significativamente de las esperadas y se rechaza Ho al nivel de significación correspondiente. En caso contrario, no se rechazará. Este procedimiento se llama ensayo o prueba de chi-cuadrado de la hipótesis.

Debe advertirse que en aquellas circunstancias en que X2 esté muy próxima a cero debe mirarse con cierto recelo, puesto que es raro que las frecuencias observadas concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se puede determinar si el valor calculado de X2 es menor que las X2 críticas o de tabla (ensayo unilateral izquierdo), en cuyos casos se decide que la concordancia es bastante buena.

Ejemplos:

  1. La siguiente tabla muestra las frecuencias observadas al lanzar un dado 120 veces. Ensayar la hipótesis de que el dado está bien hecho al nivel de significación del 0.05.
  2. Cara
    1
    2
    3
    4
    5
    6
    Frecuencia Observada
    25
    17
    15
    23
    24
    16

    Solución:Ensayo de Hipótesis:
    Ho; Las frecuencias observadas y esperadas son significativamente iguales
    (dado bien hecho)
    H1; Las frecuencias observadas y esperadas son diferentes (dado cargado).

    Primero se procede a calcular los valores esperados. Como es bien sabido por todos la probabilidad de que caiga cualquier número en un dado no cargado es de 1/6. Como la suma de los valores observados es de 120, se multiplica este valor por 1/6 dando un resultado de 20 para cada clasificación.
    Cara
    1
    2
    3
    4
    5
    6
    Total
    Frecuencia Observada
    25
    17
    15
    23
    24
    16
    120
    Frecuencia esperada
    20
    20
    20
    20
    20
    20
     

    Grados de libertad = k-1-m = 6-1-0 = 5
    No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.
    Regla de decisión:
    Si X2R 11.1 no se rechaza Ho.
    Si X2>11.1 se rechaza Ho.

    Cálculos:

    Justificación y decisión:
    Como 5 es menor a 11.1 no se rechaza Ho y se concluye con una significación de 0.05 que el dado está bien hecho.


  3. En los experimentos de Mendel con guisantes, observó 315 lisos y amarillos, 108 lisos y verdes, 101 rugosos y amarillos y 32 rugosos y verdes. De acuerdo con su teoría, estos números deberían presentarse en la proporción 9:3:3:1. ¿Hay alguna evidencia que permita dudar de su teoría al nivel de significación del 0.01?


  4. Solución:Ensayo de Hipótesis:
    Ho; La teoría de Mendel es acertada.
    H1; La teoría de Mendel no es correcta.

    El número total de guisantes es 315+108+101+32=556. Puesto que los números esperados están el la proporción 9:3:3:1 (9+3+3+1=16), se esperaría:
     lisos y amarillos
     lisos y verdes
     rugosos y amarillos
     rugosos y verdes

    Grados de libertad = k-1-m = 4-1-0 = 3
    No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.
    Regla de decisión:
    Si X2R 11.3 no se rechaza Ho.
    Si X2>11.3 se rechaza Ho.

    Cálculos:

    Justificación y decisión:
    Como 0.470 es menor que 11.3 no se rechaza Ho y se concluye con un nivel de significación de 0.01 que la teoría de Mendel es correcta.
    Como el valor de 0.470 está cercano a cero, se procede a hacer un ensayo unilateral izquierdo:

    Ensayo de Hipótesis:
    Ho; La teoría de Mendel es acertada.
    H1; La teoría de Mendel es muy acertada.
    Regla de decisión:
    Si X2 0.115 no se rechaza Ho.
    Si X2R < 0.115 se rechaza Ho.

    Como el valor de 0.470 no es menor a 0.115 se concluye que el experimento o la teoría de Mendel solo es buena.

  5. Una encuesta sobre 320 familias con 5 niños dio la distribución que aparece en la siguiente tabla. ¿Es el resultado consistente con la hipótesis de que el nacimiento de varón y hembra son igualmente posibles? Use  = 0.05.

  6. Número de niños
    5
    4
    3
    2
    1
    0
    Número de niñas
    0
    1
    2
    3
    4
    5
    Número de familias
    18
    56
    110
    88
    40
    8


    Solución:Ensayo de hipótesis:
    H0; El nacimiento de niños y niñas es igualmente probable.
    H1; El nacimiento de niños y niñas no es igualmente probable.

    Este experimento tiene un comportamiento binomial, puesto que se tienen dos posibles resultados y la probabilidad de éxito se mantiene constante en todo el experimento.
    Se le llamará éxito al nacimiento de un varón o niño. Por lo que la variable aleatoria "x" tomará valores desde 0 hasta 5.
    Como se quiere ver si es igualmente probable el nacimiento de niños y niñas, la probabilidad de éxito será de 0.5.
    Utilizando la fórmula de la distribución binomial se calcularán las probabilidades, que multiplicadas por el número total de familias nos darán los valores esperados en cada clasificación.

    Recordando la fórmula de la distribución binomial:
    en donde n = 5 y "x" es el número de niños .
    Probabilidad de 5 niños y 0 niñas = 
    Probabilidad de 4 niños y 1 niña = 
    Probabilidad de 3 niños y 2 niñas = 
    Probabilidad de 2 niños y 3 niñas = 
    Probabilidad de 1 niño y 4 niñas = 
    Probabilidad de 0 niños y 5 niñas = 
    Si cada una de estas probabilidades se multiplican por 320 se obtienen los valores esperados:
    Número de niños
    5
    4
    3
    2
    1
    0
    Total
    Número de niñas
    0
    1
    2
    3
    4
    5
    Número de familias
    18
    56
    110
    88
    40
    8
    320
    Frecuencias esperadas
    10
    50
    100
    100
    50
    10
     


    Grados de libertad: k-1-m = 6-1-0 = 5
    Regla de decisión:
    Si X2R 11.1 no se rechaza Ho.
    Si X2>11.1 se rechaza Ho.

    Cálculos:

    Justificación y decisión:
    Como el 12 es mayor a 11.1, se rechaza H0 y se concluye con un  = 0.05 que el nacimiento de hombres y mujeres no es igualmente probable.


  7. Una urna contiene 6 bolas rojas y 3 blancas. Se extraen al azar dos bolas de la urna, se anota su color y se vuelven a la urna. Este proceso se repite un total de 120 veces y los resultados obtenidos se muestran en la siguiente tabla. Determinar al nivel de significación del 0.05 si los resultados obtenidos son consistentes con los esperados.
 
0
1
2
Bolas blancas
2
1
0
Número de extracciones
6
53
61

Solución:
Este experimento tiene las características de una distribución hipergeométrica, por lo cual se calcularán los valores esperados con el razonamiento de esta distribución.
Se llamara "x" a la variable aleatoria de interés que en este caso serán las bolas rojas. Por lo tanto "x" puede tomar valores desde 0 hasta 2.

La fórmula de la distribución hipergeométrica es:

Se tiene:
Probabilidad de extraer 0 rojas y 2 blancas:

Probabilidad de extraer 1 roja y 1 blanca:

Probabilidad de extraer 2 rojas y 0 blancas:

Con las probabilidades anteriores se obtendrán los valores esperados multiplicando por 120.
 
0
1
2
Bolas blancas
2
1
0
Número de extracciones
6
53
61
Frecuencias esperadas
10
60
50
Grados de libertad: k-1-m = 3-1-0 = 2
Regla de decisión:
Si X2R 5.991 no se rechaza Ho.
Si X2>5.991 se rechaza Ho.

Cálculos:

Justificación y decisión:
Como el 4.83 no es mayor a 5.991, no se rechaza H0 y se concluye con un  = 0.05 que los resultados son los mismos que los esperados.


El vídeo usa un p de 0,10 pero como dimos en clase nosotros usamos un p valor de 0,05, el ha asumido más error.