class: front .pull-left-wide[ # Estadística Correlacional] .pull-right-narrow[![:scale 85%](img/logo-correlacional-transp.png)] ## Asociación, inferencia y reporte ---- .pull-left[ ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 2do Sem 2023 ## [.orange[correlacional.netlify.com]](https:/correlacional.netlify.com) ] .pull-right-narrow[ .center[ .content-block-gray[ ## Sesión 7: ## .orange[Inferencia 3: Test de hipótesis]] ] ] --- layout: true class: animated, fadeIn --- # Lectura hoy: [Moore cap. 7 - Inferencia para medias y desviaciones típicas](https://correlacional.netlify.app/files/textos/Moore.pdf) --- class: roja right .pull-left-narrow[ # .black[Contenidos] ] .pull-right-wide[ <br><br><br> ## .yellow[1- Resumen sesión anterior] ## 2- Test de hipótesis ## 3- Prueba t ] --- # Inferencia: la otra parte del análisis Cuando se analizan datos, 2 cosas principales .pull-left[ .content-box-yellow[ - cálculo del estadístico: - promedio - desviación estándar - correlación - ... ] ] .pull-right[ .content-box-red[ - inferencia: ¿existe este estadístico en la población? - probabilidad - error - significación ] ] --- class: roja # ¿Qué .yellow[pruebas] se requieren para que se pueda .orange[confiar] en que un resultado obtenido con una muestra ocurra en la población? --- .pull-left-narrow[ ![](https://multivariada.netlify.app/slides/images/inference1.png) ] .pull-right-wide[ .content-box-purple[ ## Desviación estándar y error estándar] - más que el promedio de la variable en nuestra **muestra**, en inferencia nos interesa estimar en qué medida ese promedio da cuenta del promedio de la **población** {{content}} ] -- - contamos con **una muestra**, pero sabemos que otras muestras podrían haber sido extraídas, probablemente con distintos resultados. --- # Distribución muestral del promedio ![](https://multivariada.netlify.app/slides/images/se_2.png) --- # Distribución muestral del promedio ![](https://multivariada.netlify.app/slides/images/se_3.png) --- # Teorema del límite central - la distribución de los promedios de distintas muestras - o .red[distribución muestral del promedio] - se aproxima a una distribución normal -- - En muestras mayores a 30 la desviación estándar de los promedios (error estándar del promedio) equivale a: `$$\sigma_{\bar{X}}=SE(error estándar)=\frac{s}{\sqrt{N}}$$` - `\(s\)` = desviación estándar de la muestra - `\(N\)` = tamaño de la muestra --- class: inverse middle right # ¿Para qué nos sirve el .red[error estándar] o .red[SE] del promedio? ##(... y de otros estadísticos, como la correlación) --- # Usos del error estándar - Dos usos complementarios: - construcción de intevalos de confianza - test de hipótesis (ESTA clase) --- # Intervalos de confianza .pull-left-wide[ .center[![:scale 85%](https://multivariada.netlify.app/slides/images/normal.png)]] .pull-right-narrow[ .medium[ - Por ejemplo, un intervalo de confianza de `\(\bar{x}\pm1.96SE\)` abarca aproximadamente el 95% de los valores probables - En este caso, puedo decir que el promedio se encuentra en un rango de valores con un .red[nivel de confianza] de 95% ] ] --- # ¿Confianza en qué? - bajo esta lógica, la confianza está en que si tuvieramos la posibilidad de extraer múltiples muestras, el 95% de las veces nuestro intervalo contendría el promedio - o que existe un 5% de probabilidad de error, es decir, que el promedio de la muestra no sea el de la población - o que las chances de error son 1 de 20 --- class: roja # Un .yellow[intervalo de confianza] (IC o CI) es la mejor estimación del rango de un estadístico en la población (parámetro poblacional) con una muestra aleatoria --- class: inverse middle ## ¿De qué depende el .red[tamaño] del intervalo de confianza? ## ¿Cómo se establece el .red[nivel de confianza] del intervalo? --- ## ¿De qué depende el tamaño del intervalo de confianza? - recordemos que el intervalo de confianza se elabora sumando y restando errores estándar al promedio `$$\sigma_{\bar{X}}=SE(error estándar)=\frac{s}{\sqrt{N}}$$` -- - dado que el tamaño muestral (N) se encuentra en el denominador del `\(SE\)`, a mayor N, menor será el `\(SE\)` y menor el intervalo de confianza - esto tiene implicancias directas en el cálculo del tamaño muestral --- class: roja right .pull-left-narrow[ # .black[Contenidos] ] .pull-right-wide[ <br><br><br> ## 1- Resumen sesión anterior ## .yellow[2- Test de hipótesis] ## 3- Prueba t ] --- class: inverse middle center # ¿Qué es una hipótesis? --- class: roja middle center # Una .yellow[hipótesis] es una aseveración o una predicción sobre una situación que ocurre en la población en estudio --- # Hipótesis - La investigación basada en inferencia estadística utiliza .red[hipótesis] - En el caso de la sociología, las hipótesis nos permiten conectar la teoría con la investigación empírica - Las hipótesis de investigación no son exclusivas de la investigación con datos cuantitativos, pero poseen características específicas distintivas de otros tipos de investigación --- # Ejemplos hipótesis: - el número de migrantes venezolanos ha aumentado en el tiempo - los años de educación promedio en Chile son 14 - los estudiantes de colegios particulares obtienen mejor puntaje PSU que estudiantes de colegios municipales --- ## Tipos de hipótesis en relación al número de conceptos/variables .pull-left[ - Por lo general, las hipótesis de investigación establecen una relación entre .red[dos o más variables] - Ej: los migrantes obtienen salarios más bajos que el resto de la población ] .pull-right[ - Tambien existen hipótesis que consideran solamente .red[una variable] - Ej: El promedio de años de escolaridad en Chile es de 10 ] ??? La investigacion empírica en sociología en general considera hipótesis que relacionan dos o más variables, sin embargo vamos a considerar inicialmente hipótesis respecto de una variable con fines pedagógicos --- class: inverse middle center # ¿Existen diferencias salariales entre hombres y mujeres en Chile? --- # Cuestionario CASEN .pull-left[ ![:scale 80%](img/sueldo_casen.png) ] .pull-right[ ![](img/sexo_casen.png) ] --- # Datos CASEN 2022 .pull-left-narrow[ ![](img/casen_download.png) ] .medium[ .pull-right-wide[ - bajar CASEN a directorio local - crear subset: ``` r casen2022 <- read_dta("/home/juank/Downloads/Base de datos Casen 2022 STATA.dta") casen2020_inf <- casen2022 %>% select(y1,sexo) # seleccionar variables casen2020_inf <- casen2020_inf %>% rename("salario"=y1) #renombrar casen2020_inf <-na.omit(casen2020_inf) # sacar perdidos save(casen2020_inf, file = "casen2020_inf.Rdata") #guardar objeto rm(list = c('casen2022')) # quitar del environment por tamaño/memoria ``` ] ] --- # Subset datos CASEN .small[ ``` r load("casen2020_inf.Rdata") pacman::p_load(stargazer) stargazer(as.data.frame(casen2020_inf), type = "text") ``` ``` ======================================================= Statistic N Mean St. Dev. Min Max ------------------------------------------------------- salario 61,363 643,251.800 645,814.300 -88 25,000,000 sexo 61,363 1.450 0.497 1 2 ------------------------------------------------------- ``` ] .medium[ - según libro de códigos -88=no sabe y 0=no recibió - en la tabla se aprecia que valores perdidos en salario aún no recodificados como NA ] --- # Revisión valores perdidos salario .medium[ ``` r casen2020_inf %>% select(salario) %>% filter(salario<10000) %>% frq(.) ``` ``` y1. Mes pasado. Sueldo o salario líquido en su trabajo principal (salario) <numeric> # total N=3124 valid N=3124 mean=-43.64 sd=150.52 Value | Label | N | Raw % | Valid % | Cum. % -------------------------------------------------------------- -88 | No sabe | 1640 | 52.50 | 52.50 | 52.50 0 | 0. No recibió sueldo | 1483 | 47.47 | 47.47 | 99.97 8000 | 8000 | 1 | 0.03 | 0.03 | 100.00 <NA> | <NA> | 0 | 0.00 | <NA> | <NA> ``` ] --- # Recodificación ``` r casen2020_inf$salario <- car::recode(casen2020_inf$salario, "c(-88,0)=NA") stargazer(as.data.frame(casen2020_inf), type = "text") #check ``` ``` ========================================================= Statistic N Mean St. Dev. Min Max --------------------------------------------------------- salario 58,240 677,747.300 645,027.200 8,000 25,000,000 sexo 61,363 1.450 0.497 1 2 --------------------------------------------------------- ``` --- # Diferencias entre grupos: ¿existen diferencias salariales entre hombres y mujeres? ``` r casen2020_inf%>% # se especifica la base de datos dplyr::group_by(sexo=sjlabelled::as_label(sexo)) %>% # se agrupan por la variable categórica y se usan sus etiquetas con as_label dplyr::summarise(Obs.=n(),Promedio=mean(salario, na.rm=TRUE),SD=sd(salario, na.rm=TRUE)) %>% # se agregan las operaciones a presentar en la tabla kable(, format = "markdown") # se genera la tabla ``` |sexo | Obs.| Promedio| SD| |:---------|-----:|--------:|--------:| |1. Hombre | 33756| 733099.6| 707927.7| |2. Mujer | 27607| 609981.8| 550949.7| --- Del ejemplo sabemos que hay una diferencia salarial de 733.099-609.981=**123.118** .content-box-red[ .center[ ##¿Cómo saber si esta diferencia entre grupos es estadísticamente significativa?] ] - una forma de plantear una hipótesis de que existe una diferencia en la población es decir que las diferencias son .red[distintas de cero] - como contraste, se genera una hipótesis de no diferencias (o igualdad entre grupos): .red[la hipótesis nula] --- # Prueba de hipótesis Contrastamos la *hipótesis nula* (no hay diferencias de promedios entre grupos): `$$H_{0}: \bar{X}_a - \bar{X}_b= 0$$` En relación a la siguiente hipótesis alternativa: `$$H_{a}: \bar{X}_a - \bar{X}_b \neq 0$$` --- ## Hipotesis nula ( `\(H_0\)`) y tipos de error .center[ ![:scale 100%](img/errortypes.png) ] --- ## Hipotesis nula y tipos de error ![](img/errors.jpg) --- # Hipótesis nula y `\(\alpha\)` - el `\(\alpha\)` es la probabilidad de error que fijamos para rechazar la hipótesis nula - en lenguaje de prueba de hipótesis, es la probabilidad de rechazar la hipótesis nula cuando esta es verdadera - o la probabilidad de encontrar diferencias entre grupos de la población cuando estas no existen - o en simple, la probabilidad de que nos estemos equivocando --- # Nivel de confianza y `\(\alpha\)` - el nivel de confianza de una estimación se determina de manera convencional, usualmente se acepta 95% o 99% de confianza - un nivel de confianza se expresa en una probabilidad de error `\(\alpha\)` (.red[alfa]), que es 1- nivel de confianza - para un nivel de confianza de 95%, `\(\alpha=1-0.95=0.05\)` - para un nivel de confianza de 99%, `\(\alpha=1-0.99=0.01\)` --- class: middle center ![](img/normal&alfa.png) --- class: middle center ![](img/normal&alfa2.png) --- class: middle ![:scale 1100%](img/confidence_levels.png) --- # Procedimiento En la misma lógica que hicimos antes con el promedio y prueba Z: - se calcula la diferencia de medias - se calcula el error estándar de la diferencia de medias - se fija un `\(\alpha\)` (usualmente 0.05) para rechazar `\(H_0\)` - se establece un valor crítico asociado al `\(\alpha\)` --- class: roja right .pull-left-narrow[ # .black[Contenidos] ] .pull-right-wide[ <br><br><br> ## 1- Resumen sesión anterior ## 2- Test de hipótesis ## .yellow[3- Prueba t] ] --- # Prueba `\(t\)` para diferencia de medias - la prueba t es similar a Z - si bien t se aproxima a Z en muestras grandes, por convención se utiliza t para test de hipótesis - se basa en la distribución normal, pero con ajuste para muestras pequeñas y para cuando no conocemos la desviación estándar de la población - el tamaño muestral se vincula al concepto de _grados de libertad_ --- class: middle, center ![:scale 60%](img/t_vs_z.png) --- # Comparación intervalos confianza `\(Z\)` y `\(t\)` .large[ `\begin{align*} \bar{X}&\pm Z*\frac{\sigma}{\sqrt{N}} \\\\ (\bar{x}_1-\bar{x}_2)&\pm t*\sqrt{\frac{s_1²}{\sqrt{n_1}}+\frac{s_2²}{\sqrt{n_2}}} \end{align*}` ] --- # Prueba `\(t\)` y test de hipótesis .pull-left[ ## `\(t=\frac{(\bar{x}_1-\bar{x}_2)}{\sqrt{\frac{s_1²}{\sqrt{n_1}}+\frac{s_2²}{\sqrt{n_2}} }}\)` El denominador es el .red[error estándar de la diferencia de promedios] ] .pull-right[ Este t empírico se compara con un valor crítico de t asociado a una probabilidad de error `\(\alpha\)`, ej: 0.05 Si el t empírico es igual o mayor que el crítico, se rechaza `\(H_0\)`, es decir, las diferencias de promedio en la población son distintas de 0 con un 95% de confianza. ] --- class: middle .pull-left[ ![:scale 60%](img/t_table.png) ] .pull-right[ A medida que aumenta la muestra (asociada a DF-grados de libertad), t se aproxima a Z Como se ve en la table, en una muestra de 1000 el valor crítico para 0.05 (dos colas o two-tails), t=1.96 ] --- # Diferencia de promedios en CASEN .medium[ ``` r t.test(salario ~ sexo, data = casen2020_inf, var.equal=TRUE) ``` ``` Two Sample t-test data: salario by sexo t = 23.018, df = 58238, p-value < 2.2e-16 alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0 95 percent confidence interval: 112634.2 133601.4 sample estimates: mean in group 1 mean in group 2 733099.6 609981.8 ``` ] --- # T test - t=23.018 -> diferencia de medias dividida por su error estándar - df (degrees of freedom) grados de libertad, asociados al tamaño muestral. En este caso, como son dos grupos es N-2 = 58240 - 2 = 58238 - p = probabilidad de error < 2.2e-16 (0.000000000000022) - Intervalo de confianza para la diferencia de promedios al 95%: [112634 - 133601] --- # T test - por lo tanto, podemos rechazar H_0 con un nivel `\(\alpha\)` de 0.01 - la probabilidad de que las diferencias sean 0 en la población en es p<0.01 - consistentemente, el intervalo de confianza al 95% no contiene el 0 - y más genéricamente: hay diferencias estadísticamente significativas entre el salario de hombres y mujeres en Chile --- class: inverse ## Resumen - hipótesis: aseveraciones sobre algo que ocurre en la población, usualmente asociaciones entre conceptos / variables - el contraste de hipótesis en estadística opera mediante el rechazo de la hipótesis nula (o de no diferencias), con una probabilidad de error `\(\alpha\)` - para diferencia de medias se utiliza la prueba t, que es una distribución normal ajustada al tamaño muestral --- # Próxima clase - hipótesis direccionales (mayor o menor qué) o de una cola (one tail) - inferencia para proporciones - inferencia en correlación # Lectura: [Moore cap. 8 - Inferencia para proporciones](https://correlacional.netlify.app/files/textos/Moore.pdf) --- # ASISTENCIA .pull-left[ ![:scale 90%](img/qr-correlacional-asistencia.png) ] .pull-right[ <br> <br> <br> <br> <br> bit.ly/correlacional-asistencia ] --- class: front .pull-left-wide[ # Estadística Correlacional] .pull-right-narrow[![:scale 85%](img/logo-correlacional-transp.png)] ## Asociación, inferencia y reporte ---- .pull-left[ ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 2do Sem 2023 ## [.orange[correlacional.netlify.com]](https://encuestas-sociales.netlify.com) ]