Teoría de la respuesta al ítem

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Paradigma para el diseño, análisis y puntuación de pruebas

En psicometría, la teoría de respuesta al ítem (IRT) (también conocida como teoría del rasgo latente, teoría de la puntuación verdadera fuerte, o teoría moderna de las pruebas mentales) es un paradigma para el diseño, análisis y puntuación de pruebas, cuestionarios e instrumentos similares que miden habilidades, actitudes u otras variables. Es una teoría de las pruebas basada en la relación entre los individuos. desempeños en un elemento de la prueba y los resultados de los examinados. niveles de desempeño en una medida general de la habilidad que el ítem fue diseñado para medir. Se utilizan varios modelos estadísticos diferentes para representar las características tanto del ítem como del examinado. A diferencia de alternativas más simples para crear escalas y evaluar las respuestas al cuestionario, no supone que cada ítem sea igualmente difícil. Esto distingue a la TRI de, por ejemplo, la escala Likert, en la que "se supone que todos los elementos son réplicas entre sí o, en otras palabras, los elementos se consideran instrumentos paralelos". Por el contrario, la teoría de la respuesta al ítem trata la dificultad de cada ítem (las curvas características del ítem, o CCI) como información que debe incorporarse en la escala de los ítems.

Se basa en la aplicación de modelos matemáticos relacionados para probar datos. Debido a que a menudo se considera superior a la teoría clásica de las pruebas, es el método preferido para desarrollar escalas en los Estados Unidos, especialmente cuando se exigen decisiones óptimas, como en las llamadas pruebas de alto riesgo, por ejemplo, el Graduate Record Examination (GRE).) y Prueba de admisión en gestión de posgrado (GMAT).

El nombre teoría de respuesta al ítem se debe al enfoque de la teoría en el ítem, a diferencia del enfoque a nivel de prueba de la teoría de pruebas clásica. Así, la TRI modela la respuesta de cada examinado de una habilidad determinada a cada ítem de la prueba. El término elemento es genérico y abarca todo tipo de elementos informativos. Pueden ser preguntas de opción múltiple que tienen respuestas incorrectas y correctas, pero también suelen ser declaraciones en cuestionarios que permiten a los encuestados indicar el nivel de acuerdo (una calificación o escala Likert), o síntomas del paciente calificados como presentes/ausentes, o información de diagnóstico en forma compleja. sistemas.

IRT se basa en la idea de que la probabilidad de una respuesta correcta o clave a un ítem es una función matemática de los parámetros de la persona y del ítem. (La expresión "una función matemática de parámetros de personas y elementos" es análoga a la ecuación de Lewin, B = f(P, E), que afirma que el comportamiento es una función de la persona en su entorno.) El parámetro de persona se interpreta (normalmente) como un único rasgo o dimensión latente. Los ejemplos incluyen la inteligencia general o la fuerza de una actitud. Los parámetros por los que se caracterizan los elementos incluyen su dificultad (conocida como "ubicación" por su ubicación en el rango de dificultad); discriminación (pendiente o correlación), que representa cuán marcadamente varía la tasa de éxito de los individuos con su capacidad; y un parámetro de pseudoadivinación, que caracteriza la asíntota (inferior) en la que incluso las personas menos capaces obtendrán una puntuación debido a las adivinanzas (por ejemplo, 25% para una probabilidad pura en un ítem de opción múltiple con cuatro respuestas posibles).

De la misma manera, la TRI se puede utilizar para medir el comportamiento humano en las redes sociales en línea. Las opiniones expresadas por diferentes personas se pueden agregar para estudiarlas mediante TRI. También se ha evaluado su uso en la clasificación de información como información errónea o información verdadera.

Descripción general

El concepto de función de respuesta al ítem existía antes de 1950. El trabajo pionero de la TRI como teoría se produjo durante las décadas de 1950 y 1960. Tres de los pioneros fueron el psicometrista del Educational Testing Service Frederic M. Lord, el matemático danés Georg Rasch y el sociólogo austriaco Paul Lazarsfeld, quienes llevaron a cabo investigaciones paralelas de forma independiente. Entre las figuras clave que impulsaron el progreso de la TRI se encuentran Benjamin Drake Wright y David Andrich. La TRI no se utilizó ampliamente hasta finales de los años 1970 y 1980, cuando a los profesionales se les dijo la "utilidad" y "ventajas" de la TRI, por un lado, y los ordenadores personales dieron a muchos investigadores acceso a la potencia informática necesaria para la TRI, por otra.

Entre otras cosas, el propósito de la TRI es proporcionar un marco para evaluar qué tan bien funcionan las evaluaciones y qué tan bien funcionan los elementos individuales de las evaluaciones. La aplicación más común de la TRI es en educación, donde los psicometristas la utilizan para desarrollar y diseñar exámenes, mantener bancos de ítems para los exámenes y equiparar las dificultades de los ítems para versiones sucesivas de los exámenes (por ejemplo, para permitir comparaciones entre resultados a lo largo del tiempo)..

Los modelos TRI a menudo se denominan modelos de rasgos latentes. El término latente se utiliza para enfatizar que las respuestas a ítems discretos se consideran manifestaciones observables de rasgos, constructos o atributos hipotéticos, no observados directamente, pero que deben inferirse de las respuestas manifiestas. Los modelos de rasgos latentes se desarrollaron en el campo de la sociología, pero son prácticamente idénticos a los modelos TRI.

La IRT generalmente se considera una mejora con respecto a la teoría de pruebas clásica (CTT). Para las tareas que se pueden realizar utilizando CTT, la IRT generalmente aporta mayor flexibilidad y proporciona información más sofisticada. Algunas aplicaciones, como las pruebas adaptativas computarizadas, están habilitadas por IRT y no pueden realizarse razonablemente utilizando únicamente la teoría de pruebas clásica. Otra ventaja de la TRI sobre la CTT es que la información más sofisticada que proporciona la TRI permite al investigador mejorar la confiabilidad de una evaluación.

La TRI implica tres supuestos:

Un rasgo unidimensional denotado por ${theta }$ ;
Independencia local de los temas;
La respuesta de una persona a un artículo puede ser modelada por una matemática función de respuesta (IRF).

Se supone además que el rasgo es mensurable en una escala (la mera existencia de una prueba lo supone), generalmente establecida en una escala estándar con una media de 0,0 y una desviación estándar de 1,0. La unidimensionalidad debe interpretarse como homogeneidad, una cualidad que debe definirse o demostrarse empíricamente en relación con un propósito o uso determinado, pero no una cantidad que pueda medirse. 'Independencia local' significa (a) que la probabilidad de que se utilice un ítem no está relacionada con el uso de ningún otro ítem y (b) que la respuesta a un ítem es la decisión independiente de todos y cada uno de los examinados, es decir, no hay trampas ni trabajo en parejas o en grupo. El tema de la dimensionalidad a menudo se investiga con análisis factorial, mientras que el IRF es el componente básico de la TRI y es el centro de gran parte de la investigación y la literatura.

La función de respuesta del ítem

El IRF da la probabilidad de que una persona con un nivel de habilidad determinado responda correctamente. Las personas con menor capacidad tienen menos posibilidades, mientras que las personas con mayor capacidad tienen muchas probabilidades de responder correctamente; por ejemplo, los estudiantes con mayor capacidad matemática tienen más probabilidades de acertar en un elemento matemático. El valor exacto de la probabilidad depende, además de la capacidad, de un conjunto de parámetros del elemento para el IRF.

Modelo logístico de tres parámetros

Por ejemplo, en el modelo logístico de tres parámetros (3PL), la probabilidad de una respuesta correcta a un ítem dicotómico i, generalmente una pregunta de opción múltiple, es:

p_{i}({theta })=c_{i}+{frac {1-c_{i}}{1+e^{{-a_{i}({theta }-b_{i})}}}}

Donde ${theta }$ indica que las habilidades de la persona se modelan como muestra de una distribución normal con el fin de estimar los parámetros del elemento. Después de que se hayan estimado los parámetros del tema, las capacidades de las personas se calculan para fines de presentación de informes. $a_{i}$ , $b_{i}$ , y $c_{i}$ son los parámetros del elemento. Los parámetros del elemento determinan la forma del IRF. La Figura 1 representa un ICC 3PL ideal.

Los parámetros del artículo se pueden interpretar como un cambio en la forma de la función logística estándar:

P(t)={frac {1}{1+e^{{-t}}}}.

En resumen, los parámetros se interpretan de la siguiente manera (eliminando subíndices para mayor legibilidad); b es el más básico, por lo que aparece en primer lugar:

b – dificultad, ubicación del artículo: $p(b)=(1+c)/2,$ el punto medio entre $c_{i}$ (min) y 1 (max), también donde se maximiza la pendiente.
a – discriminación, escala, pendiente: la pendiente máxima $p'(b)=acdot (1-c)/4.$
c – pseudo-aprendizaje, oportunidad, mínimo asintotico $p(-infty)=c.$

Si $c=0,$ entonces estos simplifican $p(b)=1/2$ y $p'(b)=a/4,$ significa que b igual al 50% de éxito (dificultad), y a (dividido por cuatro) es la pendiente máxima (discriminación), que ocurre en el 50% de éxito. Además, el logit (probaciones de registro) de una respuesta correcta es $a(theta -b)$ (suponiendo $c=0$ ): en particular si la habilidad Silencio igual dificultad b, hay incluso probabilidades (1:1, por lo tanto logit 0) de una respuesta correcta, cuanto mayor es la capacidad arriba (o abajo) la dificultad más (o menos) probable una respuesta correcta, con discriminación a determinar con qué rapidez aumentan o disminuyen las probabilidades con capacidad.

En otras palabras, la función logística estándar tiene un mínimo asintotico de 0 ( $c=0$ ), está centrado alrededor de 0 ( $b=0$ , $P(0)=1/2$ ), y tiene la pendiente máxima $P'(0)=1/4.$ El $a$ el parámetro estira la escala horizontal, el $b$ el parámetro cambia la escala horizontal, y el $c$ comprime la escala vertical desde $[0,1]$ a $[c,1].$ Esto se explica a continuación.

El parámetro $b_{i}$ representa la ubicación de los elementos que, en el caso de las pruebas de logro, se denomina dificultad para los elementos. Es el punto en ${theta }$ donde el IRF tiene su pendiente máxima, y donde el valor está a medio camino entre el valor mínimo $c_{i}$ y el valor máximo de 1. El tema del ejemplo es de dificultad media desde $b_{i}$ =0.0, que está cerca del centro de la distribución. Tenga en cuenta que este modelo escala la dificultad del artículo y el rasgo de la persona en el mismo continuum. Por lo tanto, es válido hablar de que un artículo es tan difícil como el nivel de rasgos de la Persona A o del nivel de rasgos de una persona es lo mismo que la dificultad del artículo Y, en el sentido de que el desempeño exitoso de la tarea implicada con un elemento refleja un nivel específico de habilidad.

El parámetro del elemento $a_{i}$ representa la discriminación del tema: es decir, el grado en que el tema discrimina entre las personas de diferentes regiones sobre el continuo latente. Este parámetro caracteriza la pendiente del IRF donde la pendiente está en su máximo. El tema del ejemplo tiene $a_{i}$ =1.0, que discrimina bastante bien; las personas con baja capacidad tienen una probabilidad mucho menor de responder correctamente que las personas de mayor capacidad. Este parámetro de discriminación corresponde al coeficiente de ponderación del elemento o indicador correspondiente en una regresión lineal ponderada estándar (Placas mínimas ordinarias, OLS) y por lo tanto puede utilizarse para crear un índice ponderado de indicadores para la medición no supervisada de un concepto latente subyacente.

Para elementos como varios elementos de elección, el parámetro $c_{i}$ se utiliza en el intento de explicar los efectos de adivinar sobre la probabilidad de una respuesta correcta. Indica la probabilidad de que individuos de muy baja capacidad conseguir este artículo correcto por casualidad, matemáticamente representado como un asintoto inferior. Un artículo de elección múltiple de cuatro opciones podría tener un IRF como el elemento de ejemplo; hay una probabilidad 1/4 de un candidato de habilidad extremadamente baja adivinando la respuesta correcta, por lo que la $c_{i}$ sería aproximadamente 0,25. Este enfoque supone que todas las opciones son igualmente plausibles, porque si una opción no tiene sentido, incluso la persona de menor capacidad podría descartarla, por lo que los métodos de estimación del parámetro IRT tienen esto en cuenta y estiman un $c_{i}$ basado en los datos observados.

Modelos TRI

En términos generales, los modelos IRT pueden dividirse en dos familias: unidimensional y multidimensional. Modelos unidimensionales requieren una sola dimensión (capacidad) ${theta }$ . Modelos multidimensionales IRT modelo respuesta datos hipotetizados para surgir de múltiples rasgos. Sin embargo, debido a la gran complejidad, la mayoría de las investigaciones y aplicaciones de IRT utilizan un modelo unidimensional.

Los modelos IRT también se pueden clasificar según la cantidad de respuestas calificadas. El típico ítem de opción múltiple es dicotómico; aunque puede haber cuatro o cinco opciones, todavía se califica solo como correcta/incorrecta (correcta/incorrecta). Otra clase de modelos se aplica a resultados politómicos, donde cada respuesta tiene un valor de puntuación diferente. Un ejemplo común de esto son los elementos de tipo Likert, por ejemplo, "Califique en una escala de 1 a 5".

Número de parámetros IRT

Dichotomous Los modelos IRT se describen por el número de parámetros de los que hacen uso. La 3PL se llama así porque emplea tres parámetros de elementos. El modelo de dos parámetros (2PL) supone que los datos no tienen conjetura, pero que los elementos pueden variar en términos de ubicación ( $b_{i}$ ) y discriminación ( $a_{i}$ ). El modelo de un parámetro (1PL) asume que adivinar es parte de la capacidad y que todos los elementos que se ajusten al modelo tienen discriminación equivalente, de modo que los elementos sólo se describen por un solo parámetro ( $b_{i}$ ). Esto resulta en modelos de un parámetro que tienen la propiedad de la objetividad específica, lo que significa que el rango de la dificultad del elemento es el mismo para todos los encuestados independientes de la capacidad, y que el rango de la capacidad de la persona es el mismo para artículos independientemente de la dificultad. Así, 1 modelos de parámetro son independientes de muestra, una propiedad que no tiene para modelos de dos parámetros y tres parámetros. Además, hay teóricamente un modelo de cuatro parámetros (4PL), con un asintoto superior, denotado por $d_{i},$ Donde $1-c_{i}$ en la 3PL es reemplazado por $d_{i}-c_{i}$ . Sin embargo, esto raramente se utiliza. Tenga en cuenta que el orden alfabético de los parámetros del elemento no coincide con su importancia práctica o psicométrica; la ubicación/dificultad ( $b_{i}$ ) parámetro es claramente más importante porque está incluido en los tres modelos. La 1PL utiliza solamente $b_{i}$ , la 2PL utiliza $b_{i}$ y $a_{i}$ , la 3PL añade $c_{i}$ , y la 4PL añade $d_{i}$ .

La 2PL es equivalente al modelo 3PL con $c_{i}=0$ , y es apropiado para pruebas de elementos donde adivinar la respuesta correcta es altamente improbable, tales como artículos de relleno en la nube ("¿Cuál es la raíz cuadrada de 121?"), o donde el concepto de adivinación no se aplica, tales como personalidad, actitud o artículos de interés (por ejemplo, "Me gustan los musicales de Broadway. Agree/Disagree").

El 1PL supone no sólo que las conjeturas no están presentes (o son irrelevantes), sino que todos los ítems son equivalentes en términos de discriminación, análogo a un análisis factorial común con cargas idénticas para todos los ítems. Los elementos individuales o los individuos pueden tener factores secundarios, pero se supone que son mutuamente independientes y colectivamente ortogonales.

Modelos TRI logísticos y normales

Una formulación alternativa construye IRF basándose en la distribución de probabilidad normal; A veces se les llama modelos de ojivas normales. Por ejemplo, la fórmula para un IRF ojival normal de dos parámetros es:

p_{i}(theta)=Phi left({frac {theta -b_{i}}{sigma _{i}}}right)

donde Φ es la función de distribución acumulativa (CDF) de la distribución normal estándar.

El modelo normal se deriva del supuesto de error de medición normalmente distribuido y es teóricamente atractivo sobre esa base. Aquí. $b_{i}$ es, de nuevo, el parámetro de dificultad. El parámetro de discriminación es ${sigma }_{i}$ , la desviación estándar del error de medición para el elemento i, y comparable a 1/ $a_{i}$ .

Se puede estimar un modelo de rasgo latente de ojiva normal mediante el análisis factorial de una matriz de correlaciones tetracóricas entre elementos. Esto significa que es técnicamente posible estimar un modelo TRI simple utilizando software estadístico de propósito general.

Con el cambio de escala del parámetro de capacidad, es posible hacer que el modelo logístico 2PL se acerque mucho a la ojiva normal acumulativa. Normalmente, los IRF logísticos y de ojiva normal de 2PL difieren en probabilidad en no más de 0,01 en todo el rango de la función. Sin embargo, la diferencia es mayor en las colas de distribución, que tienden a tener más influencia en los resultados.

El modelo de rasgo latente/IRT se desarrolló originalmente utilizando ojivas normales, pero se consideró demasiado exigente desde el punto de vista computacional para las computadoras de la época (década de 1960). El modelo logístico se propuso como una alternativa más sencilla y ha gozado de un amplio uso desde entonces. Más recientemente, sin embargo, se demostró que, utilizando aproximaciones polinómicas estándar a la CDF normal, el modelo de ojiva normal no es más exigente desde el punto de vista computacional que los modelos logísticos.

El modelo Rasch

El modelo de Rasch a menudo se considera el modelo 1PL IRT. Sin embargo, los defensores del modelado de Rasch prefieren verlo como un enfoque completamente diferente para conceptualizar la relación entre datos y teoría. Al igual que otros enfoques de modelización estadística, la TRI enfatiza la primacía del ajuste de un modelo a los datos observados, mientras que el modelo de Rasch enfatiza la primacía de los requisitos para la medición fundamental, siendo el ajuste adecuado del modelo de datos un requisito importante pero secundario que debe cumplirse antes de Se puede afirmar que una prueba o instrumento de investigación mide un rasgo. Operativamente, esto significa que los enfoques TRI incluyen parámetros de modelo adicionales para reflejar los patrones observados en los datos (por ejemplo, permitir que los elementos varíen en su correlación con el rasgo latente), mientras que en el enfoque de Rasch, las afirmaciones sobre la presencia de un rasgo latente solo puede considerarse válido cuando (a) los datos se ajustan al modelo de Rasch y (b) los elementos de la prueba y los examinados se ajustan al modelo. Por lo tanto, según los modelos de Rasch, las respuestas desadaptadas requieren un diagnóstico del motivo de la desadaptación y pueden excluirse del conjunto de datos si se puede explicar sustancialmente por qué no abordan el rasgo latente. Por tanto, el enfoque de Rasch puede considerarse un enfoque confirmatorio, a diferencia de los enfoques exploratorios que intentan modelar los datos observados.

La presencia o ausencia de un parámetro de conjetura o pseudoazar es una distinción importante y a veces controvertida. El enfoque IRT incluye un parámetro de asíntota izquierda para tener en cuenta las conjeturas en exámenes de opción múltiple, mientras que el modelo de Rasch no lo incluye porque se supone que las conjeturas añaden ruido distribuido aleatoriamente a los datos. Como el ruido se distribuye aleatoriamente, se supone que, siempre que se prueben suficientes elementos, la clasificación de las personas a lo largo del rasgo latente por puntuación bruta no cambiará, sino que simplemente sufrirá un cambio de escala lineal. Por el contrario, la TRI de tres parámetros logra el ajuste del modelo de datos seleccionando un modelo que se ajuste a los datos, a expensas de sacrificar la objetividad específica.

En la práctica, el modelo Rasch tiene al menos dos ventajas principales en comparación con el enfoque IRT. La primera ventaja es la primacía de los requisitos específicos de Rasch, que (cuando se reunió) proporciona fundamentales Medición sin persona (donde las personas y los artículos pueden ser mapeados en la misma escala invariable). Otra ventaja del enfoque Rasch es que la estimación de parámetros es más sencilla en los modelos Rasch debido a la presencia de estadísticas suficientes, lo que en esta aplicación significa un mapeo de puntajes de números brutos a Rasch ${theta }$ Estimaciones.

Análisis de ajuste del modelo

Al igual que con cualquier uso de modelos matemáticos, es importante evaluar el ajuste de los datos al modelo. Si se diagnostica que el ítem no encaja con cualquier modelo debido a una mala calidad del ítem, por ejemplo, distractores confusos en una prueba de opción múltiple, entonces los ítems pueden eliminarse de ese formulario de prueba y reescribirse o reemplazarse en formularios de prueba futuros. Sin embargo, si ocurre una gran cantidad de ítems que no se ajustan sin razón aparente para el mal ajuste, será necesario reconsiderar la validez de constructo de la prueba y es posible que sea necesario reescribir las especificaciones de la prueba. Por lo tanto, Misfit proporciona herramientas de diagnóstico invaluables para los desarrolladores de pruebas, permitiendo que las hipótesis en las que se basan las especificaciones de las pruebas se prueben empíricamente con los datos.

Existen varios métodos para evaluar el ajuste, como la estadística Chi-cuadrado o una versión estandarizada de la misma. Los modelos TRI de dos y tres parámetros ajustan la discriminación de ítems, asegurando un mejor ajuste del modelo de datos, por lo que las estadísticas de ajuste carecen del valor de diagnóstico confirmatorio que se encuentra en los modelos de un parámetro, donde el modelo idealizado se especifica de antemano.

Los datos no deben eliminarse debido a un desajuste del modelo, sino más bien porque se ha diagnosticado una razón relevante para el desajuste, como por ejemplo, un hablante no nativo de inglés que realiza un examen de ciencias escrito en inglés. Se puede argumentar que dicho candidato no pertenece a la misma población de personas dependiendo de la dimensionalidad de la prueba y, aunque se argumenta que un parámetro de las medidas TRI es independiente de la muestra, no lo son de la población, por lo que inadaptados como este son constructo relevante y no invalida la prueba ni el modelo. Este enfoque es una herramienta esencial en la validación de instrumentos. En los modelos de dos y tres parámetros, donde el modelo psicométrico se ajusta para ajustarse a los datos, se debe verificar que las futuras administraciones de la prueba se ajusten al mismo modelo utilizado en la validación inicial para confirmar la hipótesis de que las puntuaciones de cada administración se generalizan. a otras administraciones. Si se especifica un modelo diferente para cada administración con el fin de lograr un ajuste del modelo de datos, entonces se está midiendo un rasgo latente diferente y no se puede argumentar que las puntuaciones de las pruebas sean comparables entre administraciones.

Información

Una de las principales contribuciones de la teoría de la respuesta al ítem es la extensión del concepto de confiabilidad. Tradicionalmente, la confiabilidad se refiere a la precisión de la medición (es decir, el grado en que la medición está libre de errores). Tradicionalmente, se mide utilizando un único índice definido de varias maneras, como la relación entre la varianza de la puntuación verdadera y la observada. Este índice es útil para caracterizar la confiabilidad promedio de una prueba, por ejemplo, para comparar dos pruebas. Pero la TRI deja claro que la precisión no es uniforme en toda la gama de puntuaciones de las pruebas. Las puntuaciones en los límites del rango de la prueba, por ejemplo, generalmente tienen más errores asociados que las puntuaciones más cercanas a la mitad del rango.

La teoría de la respuesta al ítem avanza el concepto de información del ítem y de la prueba para reemplazar la confiabilidad. La información también es una función de los parámetros del modelo. Por ejemplo, según la teoría de la información de Fisher, la información del ítem proporcionada en el caso del 1PL para datos de respuesta dicotómica es simplemente la probabilidad de una respuesta correcta multiplicada por la probabilidad de una respuesta incorrecta, o,

I(theta)=p_{i}(theta)q_{i}(theta).,

Did you mean:

The standard error of estimate (SE) is the reciprocal of the test information of at a given trait level, is the

{text{SE}}(theta)={frac {1}{{sqrt {I(theta)}}}}.

Así, más información implica menos error de medición.

Para otros modelos, como los modelos de dos y tres parámetros, el parámetro de discriminación juega un papel importante en la función. La función de información del artículo para el modelo de dos parámetros es

I(theta)=a_{i}^{2}p_{i}(theta)q_{i}(theta).,

La función de información del artículo para el modelo de tres parámetros es

I(theta)=a_{i}^{2}{frac {(p_{i}(theta)-c_{i})^{2}}{(1-c_{i})^{2}}}{frac {q_{i}(theta)}{p_{i}(theta)}}.

En general, las funciones de información de elementos tienden a tener forma de campana. Los elementos altamente discriminantes tienen funciones de información altas y estrechas; contribuyen en gran medida, pero en un rango estrecho. Los elementos menos discriminatorios proporcionan menos información pero sobre un rango más amplio.

Se pueden utilizar gráficos de información de ítems para ver cuánta información aporta un ítem y en qué parte del rango de puntuación de la escala. Debido a la independencia local, las funciones de información de artículos son aditivas. Por tanto, la función de información de la prueba es simplemente la suma de las funciones de información de los ítems del examen. Al utilizar esta propiedad con un banco de elementos grande, las funciones de información de prueba se pueden configurar para controlar el error de medición con mucha precisión.

Caracterizar la precisión de las puntuaciones de las pruebas es quizás la cuestión central de la teoría psicométrica y es una diferencia principal entre la TRI y la CTT. Los hallazgos del IRT revelan que el concepto de confiabilidad del CTT es una simplificación. En lugar de confiabilidad, IRT ofrece la función de información de prueba que muestra el grado de precisión en diferentes valores de theta, θ.

Estos resultados permiten a los psicometristas moldear (potencialmente) cuidadosamente el nivel de confiabilidad para diferentes rangos de capacidad mediante la inclusión de elementos cuidadosamente seleccionados. Por ejemplo, en una situación de certificación en la que una prueba sólo se puede aprobar o reprobar, donde sólo hay una única "puntuación de corte", la prueba se puede aprobar o reprobar. y cuando la puntuación real para aprobar no es importante, se puede desarrollar una prueba muy eficiente seleccionando sólo elementos que tengan información alta cerca de la puntuación de corte. Estos ítems generalmente corresponden a ítems cuya dificultad es aproximadamente la misma que la de la puntuación de corte.

Puntuación

El parámetro persona ${theta }$ representa la magnitud de rasgo latente del individuo, que es la capacidad humana o atributo medido por la prueba. Puede ser una habilidad cognitiva, capacidad física, habilidad, conocimiento, actitud, característica de la personalidad, etc.

La estimación del parámetro persona - el "score" en una prueba con IRT - se calcula e interpreta de una manera muy diferente en comparación con las puntuaciones tradicionales como número o porcentaje correcto. El puntaje número-correcto total del individuo no es la puntuación real, sino que se basa en los IRFs, lo que conduce a una puntuación ponderada cuando el modelo contiene parámetros de discriminación de elementos. En realidad se obtiene multiplicando la función de respuesta del elemento para cada elemento para obtener un función de probabilidad, cuyo punto más alto es el estimación máxima de probabilidad de ${theta }$ . Este punto más alto se calcula normalmente con el software IRT usando el método Newton-Raphson. Mientras que la puntuación es mucho más sofisticada con IRT, para la mayoría de las pruebas, la correlación entre la estimación de la teta y una puntuación tradicional es muy alta; a menudo es 0.95 o más. Un gráfico de puntuaciones de IRT contra puntuaciones tradicionales muestra una forma ogiva que implica que el IRT estima que individuos separados en las fronteras del rango más que en el medio.

Una diferencia importante entre CTT y IRT es el tratamiento del error de medición, indexado por el error estándar de medición. Todas las pruebas, cuestionarios e inventarios son herramientas imprecisas; nunca podemos conocer la puntuación verdadera de una persona, sino que sólo podemos tener una estimación, la puntuación observada. Existe cierta cantidad de error aleatorio que puede empujar a la persona a puntuación mayor o menor que la puntuación real. CTT supone que la cantidad de error es la misma para cada examinado, pero IRT permite que varíe.

Además, nada en la TRI refuta el desarrollo o la mejora humana ni supone que el nivel de un rasgo sea fijo. Una persona puede aprender habilidades, conocimientos o incluso las llamadas "habilidades para tomar exámenes" lo que puede traducirse en una puntuación real más alta. De hecho, una parte de la investigación de la TRI se centra en la medición del cambio en el nivel de rasgo.

Una comparación de las teorías clásica y de respuesta al ítem

La teoría clásica de pruebas (CTT) y la TRI se ocupan en gran medida de los mismos problemas, pero son cuerpos teóricos diferentes e implican métodos diferentes. Aunque los dos paradigmas son generalmente consistentes y complementarios, existen varios puntos de diferencia:

La IRT hace hipótesis más fuertes que la CTT y en muchos casos proporciona hallazgos correspondientemente más fuertes; principalmente, caracterizaciones de error. Por supuesto, estos resultados sólo se sostienen cuando las suposiciones de los modelos IRT se cumplen.
Aunque los resultados de CTT han permitido resultados prácticos importantes, la naturaleza basada en modelos de IRT ofrece muchas ventajas sobre los hallazgos de CTT análogos.
Los procedimientos de puntuación de pruebas CTT tienen la ventaja de ser simples de calcular (y explicar) mientras que la puntuación de IRT generalmente requiere procedimientos de estimación relativamente complejos.
IRT ofrece varias mejoras en los artículos de escalada y las personas. Los detalles dependen del modelo IRT, pero la mayoría de los modelos escalan la dificultad de los elementos y la capacidad de las personas en la misma métrica. Así, la dificultad de un artículo y la capacidad de una persona pueden compararse significativamente.
Otra mejora proporcionada por IRT es que los parámetros de los modelos de IRT no son generalmente dependientes de muestras o pruebas, mientras que el verdadero núcleo se define en el CTT en el contexto de una prueba específica. Por lo tanto, IRT proporciona una flexibilidad significativamente mayor en situaciones en las que se utilizan diferentes muestras o formularios de prueba. Estos hallazgos de IRT son fundamentales para pruebas de adaptación computarizadas.

Cabe mencionar también algunas similitudes específicas entre CTT e IRT que ayudan a entender la correspondencia entre conceptos. Primero, Lord showed that under the assumed that $theta$ normalmente se distribuye, la discriminación en el modelo 2PL es aproximadamente una función monotónica de la correlación punto-biserial. En particular:

a_{i}cong {frac {rho _{{it}}}{{sqrt {1-rho _{{it}}^{2}}}}}

Donde $rho _{{it}}$ es la correlación biserial de punto del artículo i. Por lo tanto, si la suposición sostiene, donde hay una mayor discriminación, por lo general habrá una correlación puntero-biserial más elevada.

Otra similitud es que, si bien la TRI proporciona un error estándar de cada estimación y una función de información, también es posible obtener un índice para una prueba en su conjunto que es directamente análogo al alfa de Cronbach, llamado índice índice de separación. Para hacerlo, es necesario comenzar con una descomposición de una estimación del IRT en una ubicación verdadera y un error, de manera análoga a la descomposición de una puntuación observada en una puntuación verdadera y un error en CTT. Dejar

{displaystyle {hat {theta }}=theta +epsilon }

Donde $theta$ es la verdadera ubicación, y $epsilon$ es la asociación de error con una estimación. Entonces... ${mbox{SE}}({theta })$ es una estimación de la desviación estándar $epsilon$ para persona con una puntuación ponderada determinada y el índice de separación se obtiene de la siguiente manera

R_{theta }={frac {{text{var}}[theta ]}{{text{var}}[{hat {theta }}]}}={frac {{text{var}}[{hat {theta }}]-{text{var}}[epsilon ]}{{text{var}}[{hat {theta }}]}}

donde el error estándar cuadrado medio de estimación de persona da una estimación de la variabilidad de los errores, $epsilon_n$ , entre personas. Los errores estándar se producen normalmente como subproducto del proceso de estimación. El índice de separación es generalmente muy cercano en valor al alfa de Cronbach.

La TRI a veces se denomina teoría fuerte de la puntuación verdadera o teoría moderna de las pruebas mentales porque es un cuerpo teórico más reciente y hace más explícitas las hipótesis implícitas en la CTT..

Más resultados...