miércoles, 2 de octubre de 2019

Introducción a la regresión cuantílica en SPSS 26

La regresión cuantílica, algoritmo perteneciente a los modelos de pronóstico en Análisis de Datos (Koenker, 2005), intenta estimar la mediana condicional (percentil 50) o bien otros cuantiles  en la variable dependiente (variable criterio), cuando los presupuestos del modelo clásico no son aplicables a los datos (Powell, 1986) como es el caso frecuente de heterocedasticidad. 

Recordando, que  un cuantil de orden τ (0<τ<1), de una distribución, corresponde al valor de la variable que marca un corte de modo que una proporción τ de valores de la población es menor o igual que dicho valor. De esta forma, el cuantil de orden 0,25 deja el 25% de valores por debajo y el cuantil de orden 0,50 se corresponde con la mediana de la distribución y también con la moda y la media en un modelo ajustado perfectamente al patrón de normalidad.

Las estimaciones se consideran más robustas frente a los valores extremos (outilers) en la variable criterio, y por otra sus gráficos de crecimiento, se utilizan para detectar  incrementos anormales (Wei et al., 2006). 

 El SPSS 26 facilita el uso de este modelo, que ha sido incorporado en el apartado general de regresión. Para ello una vez introducido en el grupo de estadísticos basta seleccionar el campo correspondiente identificado como cuantil (Analizar->Regresión-Cuantil) 


 Una vez dentro del menú basta con seleccionar la variable objetivo, así como las covariables (escalas intervalo o razón) y factores (escala ordinal o nominal):

En la pestaña criterios decidimos que cuantiles nos interesan usar en nuestro modelo. Por defecto SPSS tiene asignado el cuantil 0,5 (Mediana), al cual conviene añadir además de Q1 (0,25) y Q2 (0,75) los correspondientes a los cuantiles de los extremos (0,10 y 0,90) como medio de valorar que ocurre con estos valores en nuestra muestra.

Otro criterio que frecuentemente se puede observar son los cuantiles: {0,1; 0,3; 0,5; 0,7; 0,9} o bien sobre la serie {0,05; 0,25; 0,50; 0,75; 0,95}.  

Al final, en las representaciones gráficas, comprobamos que la pendiente de la recta de cada cuantil es distinta, lo que interpretamos como que el predictor (Variable Independiente) influye de forma distinta a cada cuantil de la variable respuesta (variable criterio o Variable Dependiente). 


Para estudiar como varía esta influencia y su significación estadística, se pueden representar la pendiente para cada cuantil, donde cada punto del eje x (horizontal) representa el coeficiente de regresión estimado de un cuantil. La línea continua roja es el coeficiente de regresión estimado para el predictor utilizando mínimos cuadrados ordinarios y las líneas discontinuas sus límites de confianza del 95%. Todos aquellos puntos que estén fueran de los límites de confianza de la solución clásica se interpretan como diferentes estadísticamente de la solución dada por el algoritmo de mínimos cuadrados ordinarios.

En nuestro ejemplo esto corresponde con el cuantil 10.


Referencias 
*Koenker, Roger (2005). Quantile Regression. Cambridge University Press. ISBN 0-521-60827-9.
*Powell, James L. (1986). Censored Regression Quantiles. Journal of Econometrics. 32 (1), 143–155. doi:10.1016/0304-4076(86)90016-3.
*Wei, Y.; Pere, A.; Koenker, R.; He, X. (2006). Quantile Regression Methods for Reference Growth Charts. Statistics in Medicine, 25 (8), 1369-1382. doi:10.1002/sim.2271.