Confiabilidad (estadísticas)
En estadística y psicometría, confiabilidad es la consistencia general de una medida. Se dice que una medida tiene una alta confiabilidad si produce resultados similares bajo condiciones consistentes:
"Es la característica de un conjunto de puntuaciones de prueba que se relaciona con la cantidad de error al azar del proceso de medición que puede ser incrustado en las puntuaciones. Las puntuaciones altamente fiables son precisas, reproducibles y consistentes de una ocasión de prueba a otra. Es decir, si el proceso de prueba se repitiera con un grupo de examinadores, esencialmente se obtendrían los mismos resultados. Varios tipos de coeficientes de fiabilidad, con valores que oscilan entre 0.00 (mucho error) y 1.00 (sin error), se utilizan generalmente para indicar la cantidad de error en las puntuaciones."
Por ejemplo, las mediciones de la altura y el peso de las personas suelen ser extremadamente fiables.
Tipos
Hay varias clases generales de estimaciones de confiabilidad:
- Fiabilidad entre emisores evalúa el grado de acuerdo entre dos o más tasadores en sus evaluaciones. Por ejemplo, una persona tiene dolor de estómago y diferentes médicos dan el mismo diagnóstico.
- Confiabilidad de prueba evalúa el grado en que las puntuaciones de prueba son consistentes de una administración de prueba a la siguiente. Las mediciones se recogen de un solo evaluador que utiliza los mismos métodos o instrumentos y las mismas condiciones de prueba. Esto incluye la fiabilidad intra-ráter.
- Confiabilidad inter-método evalúa el grado en que las puntuaciones de prueba son consistentes cuando hay una variación en los métodos o instrumentos utilizados. Esto permite descartar la confiabilidad entre emisores. Cuando se trata de formas, se puede denominar fiabilidad de formas paralelas.
- Confiabilidad de consistencia interna, evalúa la consistencia de los resultados a través de los elementos dentro de una prueba.
Diferencia de validez
La confiabilidad no implica validez. Es decir, una medida confiable que mide algo consistentemente no necesariamente mide lo que usted quiere que se mida. Por ejemplo, si bien existen muchas pruebas confiables de habilidades específicas, no todas serían válidas para predecir, digamos, el desempeño laboral.
Si bien la confiabilidad no implica validez, la confiabilidad pone un límite a la validez general de una prueba. Una prueba que no es perfectamente confiable no puede ser perfectamente válida, ya sea como un medio para medir los atributos de una persona o como un medio para predecir puntajes en un criterio. Si bien una prueba confiable puede proporcionar información útil y válida, una prueba que no es confiable no puede ser válida.
Por ejemplo, si una serie de básculas midiera consistentemente el peso de un objeto como 500 gramos por encima del peso real, entonces la báscula sería muy confiable, pero no sería válida (ya que el peso devuelto no es el verdadero peso). Para que la báscula sea válida, debe devolver el peso real de un objeto. Este ejemplo demuestra que una medida perfectamente confiable no es necesariamente válida, pero que una medida válida necesariamente debe ser confiable.
Modelo general
En la práctica, las medidas de prueba nunca son perfectamente consistentes. Se han desarrollado teorías de la confiabilidad de las pruebas para estimar los efectos de la inconsistencia en la precisión de la medición. El punto de partida básico para casi todas las teorías de la confiabilidad de las pruebas es la idea de que los puntajes de las pruebas reflejan la influencia de dos tipos de factores:
1. Factores que contribuyen a la consistencia: características estables del individuo o del atributo que se intenta medir.
2. Factores que contribuyen a la inconsistencia: características del individuo o de la situación que pueden afectar los puntajes de las pruebas pero que no tienen nada que ver con el atributo que se mide.
Estos factores incluyen:
- Características temporales pero generales del individuo: salud, fatiga, motivación, tensión emocional
- Características temporales y específicas del individuo: comprensión de la tarea de prueba específica, trucos específicos o técnicas de tratar con los materiales de prueba particulares, fluctuaciones de memoria, atención o precisión
- Aspectos de la situación de las pruebas: libertad de distracciones, claridad de instrucciones, interacción de la personalidad, etc.
- Factores de oportunidad: suerte en la selección de respuestas por adivinanzas, distracciones momentáneas
El objetivo de estimar la confiabilidad es determinar qué parte de la variabilidad en los puntajes de las pruebas se debe a errores en la medición y cuánto se debe a la variabilidad en los puntajes reales.
Una puntuación verdadera es la característica replicable del concepto que se mide. Es la parte de la puntuación observada que se repetiría en diferentes ocasiones de medición en ausencia de error.
Los errores de medición se componen tanto de errores aleatorios como de errores sistemáticos. Representa las discrepancias entre las puntuaciones obtenidas en las pruebas y las puntuaciones verdaderas correspondientes.
Este desglose conceptual suele estar representado por la ecuación simple:
- Puntuación de prueba observada = verdadera puntuación + errores de medición
Teoría clásica de las pruebas
El objetivo de la teoría de la confiabilidad es estimar los errores en la medición y sugerir formas de mejorar las pruebas para minimizar los errores.
La suposición central de la teoría de la confiabilidad es que los errores de medición son esencialmente aleatorios. Esto no significa que los errores surjan de procesos aleatorios. Para cualquier individuo, un error en la medición no es un evento completamente aleatorio. Sin embargo, en un gran número de individuos, se supone que las causas del error de medición son tan variadas que los errores de medición actúan como variables aleatorias.
Si los errores tienen las características esenciales de las variables aleatorias, entonces es razonable suponer que es igualmente probable que los errores sean positivos o negativos, y que no están correlacionados con puntajes reales o con errores en otras pruebas.
Se supone que:
1. Error medio de medida = 0
2. Las puntuaciones verdaderas y los errores no están correlacionados
3. Los errores en diferentes medidas no están correlacionados.
La teoría de la confiabilidad muestra que la varianza de los puntajes obtenidos es simplemente la suma de la varianza de los puntajes reales más la varianza de los errores de medición.
- σ σ X2=σ σ T2+σ σ E2{displaystyle sigma ¿Qué? ¿Qué? ¿Qué?
Esta ecuación sugiere que los puntajes de las pruebas varían como resultado de dos factores:
1. Variabilidad en puntuaciones verdaderas
2. Variabilidad debida a errores de medición.
El coeficiente de fiabilidad *** *** xx.{displaystyle rho _{xx}} proporciona un índice de la influencia relativa de los puntajes verdaderos y de error en los puntajes de prueba alcanzados. En su forma general, el coeficiente de fiabilidad se define como la relación verdadera puntuación varianza a la variabilidad total de las puntuaciones de prueba. O, equivalente, uno menos la relación de la variación de la puntuación de error y la variación de la puntuación observada:
- *** *** xx.=σ σ T2σ σ X2=1− − σ σ E2σ σ X2{displaystyle rho _{xx}={frac {sigma {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} ¿Qué? {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} ¿Qué?
Desafortunadamente, no hay forma de observar o calcular directamente la puntuación real, por lo que se utilizan una variedad de métodos para estimar la confiabilidad de una prueba.
Algunos ejemplos de métodos para estimar la confiabilidad incluyen la confiabilidad test-retest, la confiabilidad de consistencia interna y la confiabilidad de prueba paralela. Cada método se enfrenta al problema de descubrir la fuente del error en la prueba de manera algo diferente.
Teoría de la respuesta al ítem
Los teóricos de las pruebas clásicas sabían bien que la precisión de la medición no es uniforme en toda la escala de medición. Las pruebas tienden a distinguir mejor entre los examinados con niveles de rasgos moderados y peor entre los examinados con puntajes altos y bajos. La teoría de la respuesta al ítem extiende el concepto de confiabilidad de un solo índice a una función llamada función de información. La función de información de IRT es la inversa del error estándar de puntaje observado condicional en cualquier puntaje de prueba dado.
Estimación
El objetivo de estimar la confiabilidad es determinar qué parte de la variabilidad en los puntajes de las pruebas se debe a errores en la medición y cuánto se debe a la variabilidad en los puntajes reales.
Se han desarrollado cuatro estrategias prácticas que proporcionan métodos viables para estimar la confiabilidad de las pruebas.
1. Método de confiabilidad test-retest: evalúa directamente el grado en que los puntajes de las pruebas son consistentes de una administración de prueba a la siguiente.
Implica:
- Administrar una prueba a un grupo de individuos
- Administrar la misma prueba al mismo grupo en algún momento posterior
- Correlacionando el primer conjunto de puntuaciones con el segundo
La correlación entre las puntuaciones de la primera prueba y las puntuaciones de la segunda prueba se utiliza para estimar la fiabilidad de la prueba mediante el coeficiente de correlación momento-producto de Pearson: consulte también correlación total-elemento.
2. Método de formas paralelas:
La clave de este método es el desarrollo de formularios de prueba alternativos que sean equivalentes en términos de contenido, procesos de respuesta y características estadísticas. Por ejemplo, existen formas alternativas para varias pruebas de inteligencia general, y estas pruebas generalmente se consideran equivalentes.
Con el modelo de prueba paralela es posible desarrollar dos formas de una prueba que son equivalentes en el sentido de que la puntuación real de una persona en el formulario A sería idéntica a su puntuación real en el formulario B. Si ambas formas de la prueba se administraron a varias personas, las diferencias entre las puntuaciones en el formulario A y el formulario B pueden deberse únicamente a errores en la medición.
Implica:
- Administrar una forma de la prueba a un grupo de individuos
- En algún momento posterior, administrando una forma alternativa de la misma prueba al mismo grupo de personas
- Resultados correlativos en el formulario A con puntuaciones en el formulario B
La correlación entre las puntuaciones de las dos formas alternativas se usa para estimar la confiabilidad de la prueba.
Este método proporciona una solución parcial a muchos de los problemas inherentes al método de confiabilidad test-retest. Por ejemplo, dado que las dos formas de la prueba son diferentes, el efecto de arrastre es un problema menor. Los efectos de reactividad también están parcialmente controlados; aunque tomar la primera prueba puede cambiar las respuestas a la segunda prueba. Sin embargo, es razonable suponer que el efecto no será tan fuerte con formas alternativas de la prueba como con dos administraciones de la misma prueba.
Sin embargo, esta técnica tiene sus desventajas:
- Puede ser muy difícil crear varias formas alternativas de una prueba
- También puede ser difícil si no imposible garantizar que dos formas alternativas de una prueba sean medidas paralelas
3. Método de dividir por la mitad:
Este método trata las dos mitades de un compás como formas alternativas. Proporciona una solución simple al problema que enfrenta el método de formas paralelas: la dificultad para desarrollar formas alternativas.
Implica:
- Administrar una prueba a un grupo de individuos
- Dividir la prueba en la mitad
- Correlación de puntuaciones en la mitad de la prueba con puntuaciones en la otra mitad de la prueba
La correlación entre estas dos mitades divididas se usa para estimar la confiabilidad de la prueba. Esta estimación de confiabilidad a la mitad se aumenta luego a la duración total de la prueba utilizando la fórmula de predicción de Spearman-Brown.
Hay varias formas de dividir una prueba para estimar la confiabilidad. Por ejemplo, una prueba de vocabulario de 40 elementos podría dividirse en dos subpruebas, la primera formada por los elementos del 1 al 20 y la segunda compuesta por los elementos del 21 al 40. Sin embargo, las respuestas de la primera mitad pueden ser sistemáticamente diferentes de las siguientes. respuestas en la segunda mitad debido a un aumento en la dificultad de los ítems y la fatiga.
Al dividir una prueba, las dos mitades deberían ser lo más similares posible, tanto en términos de su contenido como en términos del estado probable del encuestado. El método más simple es adoptar una división par-impar, en la que los ítems impares forman la mitad de la prueba y los ítems pares forman la otra. Este arreglo garantiza que cada mitad contendrá la misma cantidad de elementos desde el principio, la mitad y el final de la prueba original.
4. Consistencia interna: evalúa la consistencia de los resultados entre los elementos de una prueba. La medida de consistencia interna más común es el alfa de Cronbach, que generalmente se interpreta como la media de todos los coeficientes de división por mitades posibles. El alfa de Cronbach es una generalización de una forma anterior de estimar la consistencia interna, la fórmula 20 de Kuder-Richardson. Aunque es la más utilizada, existen algunos conceptos erróneos con respecto al alfa de Cronbach.
Estas medidas de confiabilidad difieren en su sensibilidad a diferentes fuentes de error, por lo que no es necesario que sean iguales. Además, la fiabilidad es una propiedad de las puntuaciones de una medida más que de la propia medida y, por tanto, se dice que depende de la muestra. Las estimaciones de confiabilidad de una muestra pueden diferir de las de una segunda muestra (más allá de lo que podría esperarse debido a las variaciones de muestreo) si la segunda muestra se extrae de una población diferente porque la verdadera variabilidad es diferente en esta segunda población. (Esto es cierto para medidas de todo tipo: las varas de medir pueden medir bien las casas pero tener poca confiabilidad cuando se usan para medir la longitud de los insectos).
La confiabilidad se puede mejorar mediante la claridad de la expresión (para evaluaciones escritas), alargando la medida y otros medios informales. Sin embargo, el análisis psicométrico formal, llamado análisis de elementos, se considera la forma más efectiva de aumentar la confiabilidad. Este análisis consiste en el cálculo de los índices de dificultades de los elementos y discriminación de los elementos, este último índice implica el cálculo de las correlaciones entre los elementos y la suma de las puntuaciones de los elementos de toda la prueba. Si los ítems que son demasiado difíciles, demasiado fáciles y/o tienen una discriminación negativa o cercana a cero se reemplazan con ítems mejores, la confiabilidad de la medida aumentará.
- R()t)=1− − F()t).{displaystyle R(t)=1-F(t). }
- R()t)=exp ()− − λ λ t).{displaystyle R(t)=exp(-lambda t).} (donde) λ λ {displaystyle lambda } es la tasa de fracaso)
Contenido relacionado
Encuesta
Estadísticas psicológicas
Kappa de cohen
Falacia del francotirador de Texas
Validez predictiva