Kappa de Fleiss

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

El kappa de Fleiss (denominado así por Joseph L. Fleiss) es una medida estadística para evaluar la fiabilidad del acuerdo entre un número fijo de evaluadores al asignar calificaciones categóricas a una serie de elementos o clasificar elementos. Esto contrasta con otros kappas como el kappa de Cohen, que solo funcionan al evaluar el acuerdo entre no más de dos evaluadores o la fiabilidad intraevaluador (para un evaluador frente a ellos mismos). La medida calcula el grado de acuerdo en la clasificación por encima del que se esperaría por casualidad.

El kappa de Fleiss se puede utilizar con escalas binarias o nominales. También se puede aplicar a datos ordinales (datos clasificados): la documentación en línea de MiniTab ofrece un ejemplo. Sin embargo, este documento señala: "Cuando se tienen clasificaciones ordinales, como clasificaciones de gravedad de defectos en una escala de 1 a 5, los coeficientes de Kendall, que tienen en cuenta el ordenamiento, suelen ser estadísticas más apropiadas para determinar la asociación que el kappa solo". Sin embargo, tenga en cuenta que los coeficientes de rango de Kendall solo son apropiados para datos de rango.

Introducción

El kappa de Fleiss es una generalización del estadístico pi de Scott, una medida estadística de la fiabilidad entre evaluadores. También está relacionado con el estadístico kappa de Cohen y el estadístico J de Youden, que pueden ser más apropiados en ciertos casos. Mientras que el pi de Scott y el kappa de Cohen funcionan solo para dos evaluadores, el kappa de Fleiss funciona para cualquier número de evaluadores que otorguen calificaciones categóricas a un número fijo de elementos, con la condición de que para cada elemento los evaluadores sean seleccionados aleatoriamente. Puede interpretarse como una expresión del grado en el que la cantidad observada de acuerdo entre los evaluadores excede lo que se esperaría si todos los evaluadores hicieran sus calificaciones de manera completamente aleatoria. Es importante señalar que mientras que el kappa de Cohen supone que los mismos dos evaluadores han calificado un conjunto de elementos, el kappa de Fleiss El método kappa permite específicamente que, aunque haya un número fijo de evaluadores (por ejemplo, tres), diferentes individuos puedan evaluar distintos ítems. Es decir, el ítem 1 lo evalúan los evaluadores A, B y C, pero el ítem 2 lo pueden evaluar los evaluadores D, E y F. La condición de muestreo aleatorio entre evaluadores hace que el método kappa de Fleiss no sea adecuado para casos en los que todos los evaluadores evalúan a todos los pacientes.

El acuerdo se puede considerar de la siguiente manera, si un número fijo de personas asignan calificaciones numéricas a varios artículos, entonces el kappa dará una medida para lo consistentes que son las calificaciones. El kappa, , se puede definir como,

1)

El factor da el grado de acuerdo que es alcanzable por encima de la oportunidad, y, da el grado de acuerdo alcanzado anteriormente. Si los tasadores están en acuerdo completo entonces . Si no hay acuerdo entre los tasadores (excepto lo que se esperaría por casualidad) entonces .

Un ejemplo de uso del kappa de Fleiss puede ser el siguiente: considere varios psiquiatras a los que se les pide que examinen a diez pacientes. Para cada paciente, 14 psiquiatras dan uno de los cinco diagnósticos posibles. Estos se compilan en una matriz y el kappa de Fleiss se puede calcular a partir de esta matriz (ver el ejemplo a continuación) para mostrar el grado de acuerdo entre los psiquiatras por encima del nivel de acuerdo esperado por el azar.

Definición

Sea N el número total de asignaturas, sea n el número de calificaciones por asignatura y sea k el número de categorías en las que se realizan las asignaciones. Las asignaturas están indexadas por i = 1,..., N y las categorías están indexadas por j = 1,..., k. Sea nij el número de evaluadores que asignaron el i-ésimo sujeto a la j-ésima categoría.

Primero calcule pj, la proporción de todas las asignaciones que fueron a la j-ésima categoría:

2)

Ahora calcula , en qué medida los tasadores están de acuerdo i-th subject (es decir, compute cuántos pares de velocidad-rater están de acuerdo, en relación con el número de todos los pares de velocidad-rater posibles):

(3)

Note que está obligado 0, cuando las calificaciones se asignan por igual en todas las categorías, y 1, cuando todas las calificaciones se asignan a una categoría única.

Ahora computador , la media de la 's, y , que entran en la fórmula para :

4)

5)

Ejemplo trabajado

Tabla de valores para calcular el ejemplo trabajado
12345
10000141.000
2026420,253
3003560,308
4039200.440
5228110,330
6770000.462
7326300.242
8253220.176
9652100,286
10022370,286
Total2028392132
0.1430,2000.2790.1500.229

En el siguiente ejemplo, para cada uno de los diez "sujetos" (14 tasadores ()), muestra de un grupo mayor, asigna un total de cinco categorías (). Las categorías se presentan en las columnas, mientras que los sujetos se presentan en las filas. Cada célula enumera el número de evaluadores que asignaron la categoría indicada (hacia) sujeta a la categoría indicada (columna).

En el cuadro siguiente, dado que , , y . El valor es la proporción de todas las asignaciones realizadas a la a categoría. Por ejemplo, tomando la primera columna y tomando la segunda fila,

Para calcular , necesitamos saber la suma de ,

En toda la hoja,

Interpretación

Landis & Koch (1977) dio la siguiente tabla para interpretar valores para un ejemplo de 2 anotadores. Esta tabla es sin embargo sin medios universalmente aceptado. No proporcionaron pruebas para apoyarla, basándola en su lugar en la opinión personal. Se ha observado que estas directrices pueden ser más perjudiciales que útiles, ya que el número de categorías y temas afectará la magnitud del valor. Por ejemplo, el kappa es más alto cuando hay menos categorías.

EstadoInterpretación
Ejemplo subjetivo:
sólo para dos anotadores,
en dos clases.
0Pobre acuerdo
0,01 – 0,20Slight agreement
0.21 – 0,40Acuerdo justo
0,41 – 0,60Acuerdo moderado
0,61 – 0,80Acuerdo sustantivo
0,81 – 1,00Acuerdo casi perfecto

Pruebas de significado

Los paquetes estadísticos pueden calcular una puntuación estándar (puntuación Z) para el kappa de Cohen o el kappa de Fleiss, que se puede convertir en un valor P. Sin embargo, incluso cuando el valor P alcanza el umbral de significación estadística (normalmente menos de 0,05), solo indica que el acuerdo entre los evaluadores es significativamente mejor de lo que se esperaría por casualidad. El valor P no indica, por sí solo, si el acuerdo es lo suficientemente bueno como para tener un alto valor predictivo.

Véase también

  • Coeficiente de correlación de productos de Pearson
  • Coeficiente de correlación de Matthews
  • Alfa de Krippendorff

Referencias

  1. ^ Estadísticas de Kappa para Attribute Agreement Analysis, MiniTab Inc, recuperado Jan 22, 2019.
  2. ^ Scott, W. (1955), "Reliability of content analysis: El caso de codificación de escala nominal", Opinión pública Trimestral, 19 (3): 321–325, doi:10.1086/266577, JSTOR 2746450.
  3. ^ a b Fleiss, J. L. (1971), "Measuring nominal scale agreement among many raters", Psychological Bulletin, 76 (5): 378–382, doi:10.1037/h0031619.
  4. ^ Powers, David M. W. (2012), El problema con Kappa, vol. Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL2012) Taller conjunto ROBUS-UNSUP., Asociación de Linguística Computacional.
  5. ^ Hallgren, Kevin A. (2012), "Computing Inter-Rater Reliability for Observational Datos: Una visión general y un tutorial", Tutoriales en Métodos Cuantitativos para la Psicología, 8 (1): 3–34, doi:10.20982/tqmp.08.1.p023, PMID 22833776.
  6. ^ a b Landis, J. R.; Koch, G. G. (1977), "La medición del acuerdo de observador para datos categóricos", Biometrics, 33 (1): 159–174, doi:10.2307/2529310, JSTOR 2529310, PMID 843571.
  7. ^ Gwet, K. L. (2014), "Capítulo 6. (Gaithersburg: Advanced Analytics, LLC)", Handbook of Inter-Rater Reliability (PDF) (4a ed.), Análisis avanzado, LLC, ISBN 978-0970806284.
  8. ^ Sim, J.; Wright, C. C. (2005), "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size requirements", Terapia física, 85 (3): 257–268, doi:10.1093/ptj/85.3.257.

Más lectura

  • Fleiss, J. L.; Cohen, J. (1973), "La equivalencia de kappa ponderada y el coeficiente de correlación intraclase como medidas de fiabilidad", Medición educativa y psicológica, 33 (3): 613–619, doi:10.1177/001316447303300309, S2CID 145183399.
  • Fleiss, J. L. (1981), Métodos estadísticos para tasas y proporciones (2a ed.), Nueva York: John Wiley ' Sons, págs. 38 a 46.
  • Gwet, K. L. (2008), "Computing inter-rater reliability and its variation in the presence of high agreement" (PDF), British Journal of Mathematical and Statistical Psychology, 61 (Pt 1): 29–48, doi:10.1348/000711006X126600, PMID 18482474, S2CID 13915043, archivado desde el original (PDF) on 2016-03, recuperado 2010-06-16.
  • Análisis de confiabilidad entre emisores en la nube, kappa de Cohen, AC1/AC2, alfa de Krippendorff, Brennan-Prediger, Fleiss generalizado kappa, coeficientes de correlación intraclase
  • Kappa: Pros y Cons – contiene una buena bibliografía de artículos sobre el coeficiente
  • Calculadora de Kappa en línea Archivado 2009-02-28 en la máquina Wayback – calcula una variación de la kappa de Fleiss
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save