En los procesos de observación donde existen más de un evaluador/observador, se hace necesario estimar el grado de consenso. Considerando que existe concordancia cuando dos o mas observadores están de acuerdo en la presencia/ausencia de un comportamiento, categoría o código. Por ejemplo, dos psicólogos evaluando zonas rurales en un comportamiento de atavismo.
Uno de los estadísticos clásicos destinados a medir este grado de consenso es conocido como la Kappa de Cohen(κ), que nos dará en nuestro ejemplo el grado en que los profesionales están diagnosticando las zonas geográficas de una manera similar, ajustando el efecto del azar en la proporción de la concordancia observada. Este ajuste por azar supone que, cuando no están absolutamente seguros, los observadores aventuran una respuesta, lo cual en muchas situaciones profesionales nos lleva a escenarios muy poco realistas. Por otra parte, el algoritmo está influenciado por la prevalencia de los rasgos evaluados, por lo cual no es muy útil a la hora de comparar situaciones con prevalencias distintas (Gwet, 2002). Además, no mide la "calidad" de la observación, por lo cual no tiene sentido usar a uno de los observadores como "estándar" o "referencia".
Uno de los estadísticos clásicos destinados a medir este grado de consenso es conocido como la Kappa de Cohen(κ), que nos dará en nuestro ejemplo el grado en que los profesionales están diagnosticando las zonas geográficas de una manera similar, ajustando el efecto del azar en la proporción de la concordancia observada. Este ajuste por azar supone que, cuando no están absolutamente seguros, los observadores aventuran una respuesta, lo cual en muchas situaciones profesionales nos lleva a escenarios muy poco realistas. Por otra parte, el algoritmo está influenciado por la prevalencia de los rasgos evaluados, por lo cual no es muy útil a la hora de comparar situaciones con prevalencias distintas (Gwet, 2002). Además, no mide la "calidad" de la observación, por lo cual no tiene sentido usar a uno de los observadores como "estándar" o "referencia".
Supuestos.
Este estadístico presenta cinco supuestos que se deben cumplir, si no es así se deberá utilizar otra prueba estadística. Por lo tanto, lo primero que deberemos comprobar es los siguientes puntos:
1: La respuesta se mide en una escala categórica (ordinal o nominal) y deben ser mutuamente excluyentes.
Por ejemplo, dos psicólogos podrían evaluar si un paciente es "normal" o "autista" (es decir, dos categorías); si el grado de autismo de los pacientes es "superior al promedio", "medio" o "debajo del promedio" (tres categorías); o si el nivel de actividad del paciente autista es "sedentaria", "baja", "media" o "alta" (cuatro categorías).
Además, las categorías deben ser "mutuamente excluyentes", lo que significa que no hay categorías superpuestas (un evaluador podría considerar sólo al paciente como normal o autista, no puede ser normal y autista al mismo tiempo).
2: Los datos emparejan observaciones de un mismo fenómeno, lo que significa que ambos observadores evalúan las mismas situaciones. Siguiendo con el ejemplo de dos psicólogos con experiencia que se les pidió mirar a 35 pacientes, una sola observación emparejada refleja la evaluación de "Psicólogo 1" para "Paciente 1" en comparación con la evaluación de "Psicólogo 2" para "Paciente 1" (están comparando el mismo paciente). Con 35 pacientes en el estudio, esto significa que hay 35 pares de observaciones.
4: Los dos evaluadores son independientes (es decir, el juicio de un observador no afecta el juicio del otro evaluador). Por ejemplo, si los dos psicólogos discuten sus evaluaciones esto podría influir en la valoración que hacen al final, siendo un potencial sesgo. Esto se debe evitar, y si sucede, se retira del diseño del estudio.
5: Los dos observadores son fijos, lo que significa que han sido específicamente seleccionados para participar en el estudio. Si son seleccionados al azar de una población de evaluadores el estadístico ya no es apropiado.
Si el diseño del estudio no cumple con estos cinco supuestos, no se debe ejecutar un kappa de Cohen.
Si el diseño del estudio no cumple con estos cinco supuestos, no se debe ejecutar un kappa de Cohen.
Procedimiento resumido de análisis en SPSS.
En el primer paso mostramos las ventanas donde indicar al SPSS los datos que tenemos (en este ejemplo son 2 psicólogos y valoración de autismo sobre 35 pacientes), así como la forma de pedir un análisis de la κ de Cohen con intervalos bootstrap.
A continuación mostramos los resultados que el SPSS ofrece en esta prueba:
A continuación mostramos los resultados que el SPSS ofrece en esta prueba:
Se puede ver que la κ de Cohen es 0,85 (puede variar de -1 a 1), con p=0,000 y un intervalo bootstrap (al 95%) entre 0,612 y 1,000. Puede entenderse en este ejemplo una concordancia buena (Landis y Koch, 1977) entre los dos psicólogos (ver apéndice) ya que el intervalo comprende los valores a partir de 0,612. No es aconsejable usar el estadístico directo, y siempre debe ir acompañado de su intervalo bootstrap (Perroca et al., 2014).
Recordar que mide la proporción de acuerdo más allá del acuerdo esperado por azar (la posibilidad de acuerdo).
Referencias.
*Gwet,K. (2002). Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity. Statistical Methods for Inter-Rater Reliability Assessment, 2: 1–10.
*Landis J.R., Koch G.G. (1977) The measurement of observer agreement for categorical data. Biometrics, 33, 159-174.
*Perroca,M.G.; Jericó,M.C. y Paschoal,J.V.L.(2014). Identification of care needs of patients with and without the use of a classification instrument. Revista da Escola de Enfermagem da USP, DOI:http://dx.doi.org/10.1590/S0080-623420140000400008.
Apéndice.
Tabla orientativa de valoración del estadístico sugerido por Landis y Koch(1977):
<0,0 No acuerdo
0,0-0,2 Insignificante
0,2-0,4 bajo
0,4-0,6 moderado
0,6-0,8 bueno
0,8-1,0 muy bueno
Recordar que mide la proporción de acuerdo más allá del acuerdo esperado por azar (la posibilidad de acuerdo).
Referencias.
*Gwet,K. (2002). Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity. Statistical Methods for Inter-Rater Reliability Assessment, 2: 1–10.
*Landis J.R., Koch G.G. (1977) The measurement of observer agreement for categorical data. Biometrics, 33, 159-174.
*Perroca,M.G.; Jericó,M.C. y Paschoal,J.V.L.(2014). Identification of care needs of patients with and without the use of a classification instrument. Revista da Escola de Enfermagem da USP, DOI:http://dx.doi.org/10.1590/S0080-623420140000400008.
Apéndice.
Tabla orientativa de valoración del estadístico sugerido por Landis y Koch(1977):
<0,0 No acuerdo
0,0-0,2 Insignificante
0,2-0,4 bajo
0,4-0,6 moderado
0,6-0,8 bueno
0,8-1,0 muy bueno