viernes, 7 de julio de 2017

SPSS: Z modificada

Las "puntuaciones anómalas" o "extremas" dentro de un proceso de observación,  se suele ligar íntimamente con las técnicas y modelos con los que estamos intentando describir los sucesos relevantes para el campo de investigación correspondiente.
Se suele asociar frecuentemente con aquellos elementos menos comunes, que nunca deben ser rechazados de forma sistemática, sino que deben ser analizados intentando averiguar sus causas así como poder predecirlos en el futuro.
No obstante, siempre deberemos tener en mente, que la valoración de un dato como algo “extremo” es complicado,  ya que su atribución engloba implícitamente categorías asociadas como “excepcional” o “sorprendente”, que no dejan de ser en última instancia elementos subjetivos difícil definir, aún cuando se intenten anclar a procedimientos estadísticos u observaciones rigurosas.


Dentro de este marco y como herramienta estadística, nos encontramos con lo que se denomina "z modificada", que no es nada más que una puntuación estandarizada, y que como su formulación clásica es usada frecuentemente para detectar puntuaciones anómalas. Esta formulación, se diferencia de la clásica por usar la mediana y no la media como valor de centralidad. Se considera un indicador más robusto ya que está menos influenciado por las puntuaciones extremas.

Mientras la Z es el resultado de operar...
Zx=(X-Media)/Sx

La Z modificada (algoritmo de IBM Inc., 2017) se obtiene al resolver...
Zm(x)=(X-Median)/(k*MAD) 
Donde... 
MAD es la media aritmética de las diferencias absolutas respecto a la mediana, 
y K es un valor que se opera por.... 
-Si (MAD =0), k= 1.253314 
-Si (MAD <>0), k=1.486 
K*MAD se aproxima al estadístico de variabilidad Sx

Los límites están en 3 (valor absoluto).

Una reformulación de este estadístico es la ofrecida por Iglewicz and Hoaglin (1993)...
Zm(x)=0.6745(xi−x~)/MAD
...que da los mismos resultados que el algoritmo del SPSS para cuando MAD<>0.
Estos autores recomiendan el valor absoluto de 3,5 para detectar puntuaciones anómalas.

Por ejemplo, dados los siguientes 15 valores:

....podemos usar el siguiente script en SPSS 24 para resolver lo comentado anteriormente:
******
* Encoding: UTF-8.
*Procedimiento para detectar puntuaciones anómalas.
*Z modificada.
* Uso: En tamaños muestrales reducidos y distribuciones sesgadas.
* Criterio Outlier= -3 a +3 (normal el dato), fuera de esos límites es anómalo.
* Puede ser sustituido por 3,5 o en aproximaciones cuánticas incluso por 5.
*************************************************************.
*Herrero,F.J. (2017)
*Algoritmo:
*X= [0,6745*(X-Media)]/DAM
*DAM=Desviación absoluta mediana

FREQUENCIES VARIABLES=y 
  /FORMAT=NOTABLE 
  /STATISTICS=MEDIAN 
  /ORDER=ANALYSIS.
*52 en nuestro ejemplo corresponde con la mediana del vector y.

compute Numerador= 0.6745*(Y-52).
compute difabs=abs(52-Y).
EXECUTE.

FREQUENCIES VARIABLES=difabs 
  /FORMAT=NOTABLE 
  /STATISTICS=MEDIAN 
  /ORDER=ANALYSIS.
*El resultado es 4 en nuestro ejemplo, corresponde con MAD

compute ModZ= Numerador/4.
execute.

*Alternativa SPSS.
*Reference:
*https://www.ibm.com/support/knowledgecenter/en/SSWLVY_1.0.1/com.ibm.spss.analyticcatalyst.help/analytic_catalyst/modified_z.html.

*MAD=0.
*compute ModbZ=(Y-52)/(1.253314*4).
*MAD<>0. 
compute ModbZ=(Y-52)/(1.486*4). 
EXECUTE.

DESCRIPTIVES VARIABLES=y 
  /SAVE 
  /STATISTICS=MEAN.
*Comparado el resultado con las Z normales veremos que el caso 5 es outlier con este procedimiento, y no en la Z clásica.
******
....obteniendo una nueva base de datos con las puntuaciones deseadas:
También es posible como alternativa, usar un procedimiento en R, que fácilmente se puede incrustar dentro del SPSS:

Por finalizar, señalar que si usamos una aproximación cuántica, se recomiendan el valor absoluto de 5 para detectar puntuaciones anómalas.

Referencias.
*IBM Inc, 2017. Modified z score.
(Recuperado de
https://www.ibm.com/support/knowledgecenter/en/SSWLVY_1.0.0/com.ibm.spss.analyticcatalyst.help/analytic_catalyst/modified_z.html  ).
*Iglewicz, B. and Hoaglin,D. (1993), Vol. 16: How to Detect and Handle Outliers, Edward F. Mykytka, Ph.D. (Editor), The ASQC Basic References in Quality Control: Statistical Techniques, Milwaukee, Wis. : ASQC Quality Press,