miércoles, 15 de abril de 2015

Bootstrap y Kappa de Cohen en SPSS

En los procesos de observación donde existen más de un evaluador/observador, se hace necesario estimar el grado de consenso. Considerando que existe concordancia cuando dos o mas observadores están de acuerdo en la presencia/ausencia de un comportamiento, categoría o código. Por ejemplo, dos psicólogos evaluando zonas rurales en un comportamiento de atavismo.
Uno de los estadísticos clásicos destinados a medir este grado de consenso es conocido como la  Kappa de Cohen(κ), que nos dará en nuestro ejemplo el grado en que los profesionales están diagnosticando las zonas geográficas de una manera similar, ajustando el efecto del azar en la proporción de la concordancia observada. Este ajuste por azar supone que, cuando no están absolutamente seguros, los observadores aventuran una respuesta, lo cual en muchas situaciones profesionales nos lleva a escenarios muy poco realistas. Por otra parte, el algoritmo está influenciado por la prevalencia de los rasgos evaluados, por lo cual no es muy útil a la hora de comparar situaciones con prevalencias distintas (Gwet, 2002). Además, no mide la "calidad" de la observación, por lo cual no tiene sentido usar a uno de los observadores como "estándar" o "referencia".

Supuestos. 
Este estadístico presenta cinco supuestos que se deben cumplir, si no es así se deberá utilizar otra prueba estadística. Por lo tanto, lo primero que deberemos comprobar es los siguientes puntos:
1: La respuesta se mide en una escala categórica (ordinal o nominal) y deben ser mutuamente excluyentes. Por ejemplo, dos psicólogos podrían evaluar si un paciente es "normal" o "autista" (es decir, dos categorías); si el grado de autismo de los pacientes es "superior al promedio", "medio" o "debajo del promedio" (tres categorías); o si el nivel de actividad del paciente autista es "sedentaria", "baja", "media" o "alta" (cuatro categorías). Además, las categorías deben ser "mutuamente excluyentes", lo que significa que no hay categorías superpuestas (un evaluador podría considerar sólo al paciente como normal o autista, no puede ser normal y autista al mismo tiempo).
2: Los datos emparejan observaciones de un mismo fenómeno, lo que significa que ambos observadores evalúan las mismas situaciones. Siguiendo con el ejemplo de dos psicólogos con experiencia que se les pidió mirar a 35 pacientes, una sola observación emparejada refleja la evaluación de "Psicólogo 1" para "Paciente 1" en comparación con la evaluación de "Psicólogo 2" para "Paciente 1" (están comparando el mismo paciente). Con 35 pacientes en el estudio, esto significa que hay 35 pares de observaciones. 
3: Cada variable de respuesta debe tener el mismo número de categorías y la tabla de contingencia debe ser simétrica (matriz cuadrada, tabla de contingencia 2x2, 3x3, 4x4, 5x5, etc.). Por ejemplo, una tabla de contingencia 2x2 significa que las respuestas de los dos evaluadores se miden en una escala dicotómica; es decir, una escala nominal con dos categorías (por ejemplo, no queman el monte vs queman el monte; más fiables vs menos fiables; vivo vs muerto, y así sucesivamente). Una tabla de contingencia 3x3 significaría que las respuestas de los dos evaluadores se midieron en una escala nominal con tres categorías (por ejemplo, monte completamente quemado  vs algunas zonas del monte quemado versus ninguna zona quemada), 
4: Los dos evaluadores son independientes (es decir, el juicio de un observador no afecta el juicio del otro evaluador). Por ejemplo, si los dos psicólogos discuten sus evaluaciones esto podría influir en la valoración que hacen al final, siendo un potencial sesgo. Esto se debe evitar, y si sucede, se retira del diseño del estudio. 
5: Los dos observadores son fijos, lo que significa que han sido específicamente seleccionados para participar en el estudio. Si son seleccionados al azar de una población de evaluadores el estadístico ya no es apropiado.

Si el diseño del estudio no cumple con estos cinco supuestos, no se debe ejecutar un kappa de Cohen

Procedimiento resumido de análisis en SPSS. 
En el primer paso mostramos las ventanas donde indicar al SPSS los datos que tenemos (en este ejemplo son 2 psicólogos y valoración de autismo sobre 35 pacientes), así como la forma de pedir un análisis de la κ de Cohen con intervalos bootstrap.

A continuación  mostramos los resultados que el SPSS ofrece en esta prueba: 

Se puede ver que la κ de Cohen es 0,85 (puede variar de -1 a 1), con p=0,000 y un intervalo bootstrap (al 95%) entre 0,612 y 1,000. Puede entenderse en este ejemplo una concordancia buena (Landis y Koch, 1977) entre los dos psicólogos (ver apéndice) ya que el intervalo comprende los valores a partir de 0,612. No es aconsejable usar el estadístico directo, y siempre debe ir acompañado de su intervalo bootstrap (Perroca et al., 2014).

Recordar que mide la proporción de acuerdo más allá del acuerdo esperado por azar (la posibilidad de acuerdo).

Referencias.
*Gwet,K. (2002). Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity. Statistical Methods for Inter-Rater Reliability Assessment, 2: 1–10.
*Landis J.R., Koch G.G. (1977) The measurement of observer agreement for categorical data. Biometrics, 33, 159-174.
*Perroca,M.G.; Jericó,M.C. y Paschoal,J.V.L.(2014). Identification of care needs of patients with and without the use of a classification instrument. Revista da Escola de Enfermagem da USP, DOI:http://dx.doi.org/10.1590/S0080-623420140000400008.

Apéndice.
Tabla orientativa de valoración del estadístico sugerido por Landis y Koch(1977):
<0,0 No acuerdo
0,0-0,2 Insignificante
0,2-0,4 bajo
0,4-0,6 moderado
0,6-0,8 bueno
0,8-1,0 muy bueno