Pruebas adaptativas computarizadas

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Forma de prueba computarizada que se adapta al nivel de habilidad del examinador

Pruebas adaptativas computarizadas (CAT) es una forma de prueba por computadora que se adapta al nivel de habilidad del examinado. Por este motivo, también se le ha denominado pruebas a medida. En otras palabras, es una forma de prueba administrada por computadora en la que el siguiente ítem o conjunto de ítems seleccionados para ser administrados depende de la exactitud de las respuestas del examinado a los ítems administrados más recientemente.

Cómo funciona

CAT selecciona sucesivamente preguntas con el fin de maximizar la precisión del examen en función de lo que se sabe sobre el examinado a partir de preguntas anteriores. Desde la perspectiva del examinado, la dificultad del examen parece adaptarse a su nivel de capacidad. Por ejemplo, si un examinado obtiene buenos resultados en un ítem de dificultad intermedia, se le presentará una pregunta más difícil. O, si obtuvieron malos resultados, se les presentaría una pregunta más sencilla. En comparación con las pruebas estáticas que casi todo el mundo ha experimentado, con un conjunto fijo de ítems administrados a todos los examinados, las pruebas adaptativas por computadora requieren menos ítems para llegar a puntuaciones igualmente precisas.

El método básico de prueba adaptativa por computadora es un algoritmo iterativo con los siguientes pasos:

  1. La piscina de elementos disponibles se busca para el artículo óptimo, basado en la estimación actual de la capacidad del examinador
  2. El artículo elegido se presenta al examinador, quien entonces lo responde correctamente o incorrectamente
  3. La estimación de la capacidad se actualiza, sobre la base de todas las respuestas anteriores
  4. Los pasos 1–3 se repiten hasta que se cumpla un criterio de terminación

Nada se conoce sobre el examinador antes de la administración del primer artículo, por lo que el algoritmo se inicia generalmente seleccionando un elemento de dificultad media o mediana, como el primer artículo.

Como resultado de la administración adaptativa, diferentes exámenes reciben pruebas muy diferentes. Aunque los exámenes se administran normalmente diferentes pruebas, sus puntajes de habilidad son comparables entre sí (es decir, como si hubieran recibido la misma prueba, como es común en las pruebas diseñadas usando la teoría clásica de la prueba). La tecnología psicométrica que permite que las puntuaciones equitativas se computan en diferentes conjuntos de elementos es la teoría de la respuesta de los elementos (IRT). IRT es también la metodología preferida para seleccionar elementos óptimos que normalmente se seleccionan sobre la base de información en lugar de dificultad, per se.

Una metodología relacionada llamada pruebas multietapa (MST) o CAST se utiliza en el Examen Contable Público Certificado Uniforme. El MST evita o reduce algunas de las desventajas del CAT que se describen a continuación. Vea el número especial 2006 de Medición Aplicada en Educación o Pruebas Multietapa Computarizadas para obtener más información sobre MST.

Ejemplos

CAT existe desde la década de 1970 y ahora hay muchas evaluaciones que lo utilizan.

  • Prueba de Admisión de Administración de Graduados
  • Prueba MAP de NWEA
  • El SAT ha anunciado que se convertirá en multietapa-adaptivo en 2023
  • National Council Licensure Examination
  • Servicios armados Batería de Aptitud Profesional

Además, se encuentra una lista de exámenes CAT activos en la Asociación Internacional de Pruebas Adaptativas Computarizadas Archivada el 3 de diciembre de 2009 en Wayback Machine, junto con una lista de los programas de investigación CAT actuales y una bibliografía casi exhaustiva de todos los CAT publicados. investigación.

Ventajas

Las pruebas adaptativas pueden proporcionar puntuaciones uniformemente precisas para la mayoría de los examinados. Por el contrario, las pruebas fijas estándar casi siempre proporcionan la mejor precisión para los examinados con habilidades medias y una precisión cada vez más pobre para los examinados con puntajes más extremos.

Por lo general, una prueba adaptativa se puede acortar en un 50 % y aun así mantener un mayor nivel de precisión que una versión fija. Esto se traduce en un ahorro de tiempo para el examinado. Los examinados no pierden el tiempo intentando elementos que son demasiado difíciles o trivialmente fáciles. Además, la organización de pruebas se beneficia del ahorro de tiempo; el costo del tiempo de asiento del examinado se reduce sustancialmente. Sin embargo, debido a que el desarrollo de un CAT implica mucho más gasto que una prueba estándar de formato fijo, se necesita una gran población para que un programa de pruebas CAT sea financieramente fructífero.

En general, las poblaciones de objetivos grandes pueden exhibirse en campos científicos y de investigación. Las pruebas de CAT en estos aspectos pueden utilizarse para detectar el comienzo temprano de las discapacidades o enfermedades. El crecimiento de las pruebas de CAT en estos campos ha aumentado considerablemente en los últimos 10 años. Una vez no aceptadas en instalaciones médicas y laboratorios, las pruebas de CAT se fomentan ahora en el ámbito del diagnóstico.

Como cualquier prueba basada en computadora, las pruebas adaptativas pueden mostrar resultados inmediatamente después de la prueba.

Las pruebas adaptativas, dependiendo del algoritmo de selección de ítems, pueden reducir la exposición de algunos ítems porque los examinados generalmente reciben diferentes conjuntos de ítems en lugar de que a toda la población se le administre un solo conjunto. Sin embargo, puede aumentar la exposición de otros (es decir, los elementos medios o medios/fáciles presentados a la mayoría de los examinados al comienzo de la prueba).

Desventajas

El primer problema encontrado en CAT es la calibración del conjunto de elementos. Para modelar las características de los ítems (por ejemplo, elegir el ítem óptimo), todos los ítems de la prueba deben administrarse previamente a una muestra considerable y luego analizarse. Para lograr esto, se deben mezclar nuevos elementos con los elementos operativos de un examen (las respuestas se registran pero no contribuyen a las puntuaciones de los examinados), lo que se denomina "prueba piloto". ;prueba previa" o "siembra". Esto presenta problemas logísticos, éticos y de seguridad. Por ejemplo, es imposible realizar una prueba adaptativa operativa con elementos nuevos e invisibles; todos los ítems deben probarse previamente con una muestra lo suficientemente grande para obtener estadísticas de ítems estables. Es posible que se requiera que esta muestra sea tan grande como 1000 examinados. Cada programa debe decidir qué porcentaje de la prueba puede estar compuesto razonablemente por elementos de la prueba piloto sin puntuación.

Aunque las pruebas adaptativas tienen algoritmos de control de exposición para evitar el uso excesivo de algunos elementos, la exposición condicionada a la capacidad a menudo no está controlada y puede acercarse fácilmente a 1. Es decir, es común para algunos Los elementos se volverán muy comunes en las pruebas para personas con la misma capacidad. Este es un problema de seguridad grave porque los grupos que comparten elementos pueden tener un nivel de capacidad funcional similar. De hecho, un examen completamente aleatorio es el más seguro (pero también el menos eficiente).

Por lo general, no se permite la revisión de elementos anteriores. Las pruebas adaptativas tienden a administrar elementos más fáciles después de que una persona responde incorrectamente. Supuestamente, un examinador astuto podría utilizar esas pistas para detectar respuestas incorrectas y corregirlas. O bien, se podría entrenar a los examinados para que elijan deliberadamente respuestas incorrectas, lo que conduciría a una prueba cada vez más fácil. Después de engañar a la prueba adaptativa para que creara un examen lo más fácil posible, podrían revisar los ítems y responderlos correctamente, posiblemente logrando una puntuación muy alta. Los examinados con frecuencia se quejan de la imposibilidad de revisar.

Debido a su sofisticación, el desarrollo de un CAT tiene una serie de requisitos previos. Deben estar presentes los tamaños de muestra grandes (normalmente cientos de examinados) requeridos por las calibraciones IRT. Los elementos deben poder puntuarse en tiempo real si se desea seleccionar un nuevo elemento instantáneamente. Se necesitan psicometristas con experiencia en calibraciones IRT e investigación de simulación CAT para proporcionar documentación de validez. Finalmente, debe estar disponible un sistema de software capaz de realizar una verdadera CAT basada en IRT.

En un CAT con un límite de tiempo, es imposible para el examinado presupuestar con precisión el tiempo que puede dedicar a cada elemento de la prueba y determinar si está en ritmo para completar una sección de la prueba cronometrada. Por lo tanto, los examinados pueden ser penalizados por dedicar demasiado tiempo a una pregunta difícil que se presenta al principio de una sección y luego no completar suficientes preguntas para evaluar con precisión su competencia en áreas que quedan sin evaluar cuando se acaba el tiempo. Si bien los CAT no cronometrados son herramientas excelentes para evaluaciones formativas que guían la instrucción posterior, los CAT cronometrados no son adecuados para evaluaciones sumativas de alto riesgo utilizadas para medir la aptitud para trabajos y programas educativos.

Componentes

Hay cinco componentes técnicos en la construcción de un CAT (lo siguiente es una adaptación de Weiss & Kingsbury, 1984). Esta lista no incluye cuestiones prácticas, como pruebas previas de elementos o lanzamiento en campo en vivo.

  1. Piscina de elementos calibrada
  2. Punto de inicio o nivel de entrada
  3. algoritmo de selección de elementos
  4. Procedimiento de selección
  5. Criterio de terminación

Grupo de elementos calibrados

Debe haber un conjunto de elementos disponibles para que el CAT pueda elegir. Dichos artículos se pueden crear de la forma tradicional (es decir, manualmente) o mediante la generación automática de artículos. El conjunto debe calibrarse con un modelo psicométrico, que se utiliza como base para los cuatro componentes restantes. Normalmente, la teoría de la respuesta al ítem se emplea como modelo psicométrico. Una de las razones por las que la teoría de respuesta al ítem es popular es porque coloca a las personas y a los ítems en la misma métrica (indicada por la letra griega theta), lo cual es útil para problemas en la selección de ítems (ver más abajo).

Punto de partida

En CAT, los elementos se seleccionan en función del desempeño del examinado hasta un punto determinado de la prueba. Sin embargo, el CAT obviamente no puede hacer ninguna estimación específica de la capacidad del examinado cuando no se han administrado ningún ítem. Por tanto, es necesaria alguna otra estimación inicial de la capacidad del examinado. Si se conoce alguna información previa sobre el examinado, se puede utilizar, pero a menudo el CAT simplemente asume que el examinado tiene una capacidad promedio, de ahí que el primer ítem sea a menudo de un nivel de dificultad medio.

Algoritmo de selección de elementos

Como se mencionó anteriormente, la teoría de respuesta al ítem coloca a los examinados y a los ítems en la misma métrica. Por lo tanto, si el CAT tiene una estimación de la capacidad del examinado, puede seleccionar el ítem que sea más apropiado para esa estimación. Técnicamente, esto se hace seleccionando el elemento con mayor información en ese momento. La información es una función del parámetro de discriminación del ítem, así como de la varianza condicional y el parámetro de pseudoadivinación (si se utilizan).

Procedimiento de puntuación

Después de administrar un ítem, el CAT actualiza su estimación del nivel de habilidad del examinado. Si el examinado respondió correctamente al ítem, el CAT probablemente estimará que su capacidad es algo mayor, y viceversa. Esto se hace utilizando la función de respuesta al ítem de la teoría de respuesta al ítem para obtener una función de probabilidad de la capacidad del examinado. Dos métodos para esto se denominan estimación de máxima verosimilitud y estimación bayesiana. Este último supone una distribución a priori de la capacidad del examinado y tiene dos estimadores comúnmente utilizados: expectativa a posteriori y máximo a posteriori. La máxima verosimilitud es equivalente a una estimación máxima a posteriori de Bayes si se supone un a priori uniforme (f(x)=1). La probabilidad máxima es asintóticamente imparcial, pero no puede proporcionar una estimación theta para un vector de respuesta no mezclado (todo correcto o incorrecto), en cuyo caso es posible que deba usarse temporalmente un método bayesiano.

Criterio de rescisión

El algoritmo CAT está diseñado para administrar elementos repetidamente y actualizar la estimación de la capacidad del examinado. Esto continuará hasta que se agote el conjunto de artículos, a menos que se incorpore un criterio de terminación al CAT. A menudo, la prueba finaliza cuando el error estándar de medición del examinado cae por debajo de un cierto valor especificado por el usuario, de ahí la afirmación anterior de que una ventaja es que las puntuaciones del examinado serán uniformemente precisas o "equiprecisas". 34; Existen otros criterios de finalización para diferentes propósitos de la prueba, como por ejemplo si la prueba está diseñada únicamente para determinar si el examinado debe "aprobar" la prueba. o "fallar" la prueba, en lugar de obtener una estimación precisa de su capacidad.

Otros problemas

Pasa-falla

En muchas situaciones, el propósito de la prueba es clasificar a los examinados en dos o más categorías exhaustivas y mutuamente excluyentes. Esto incluye la "prueba de dominio" donde las dos clasificaciones son "aprobadas" y "fallar" pero también incluye situaciones en las que existen tres o más clasificaciones, como "Insuficiente" "Básico" y "Avanzado" niveles de conocimiento o competencia. El tipo de estrategia "adaptativa a nivel de elemento" El CAT descrito en este artículo es más apropiado para pruebas que no son "aprobadas/reprobadas". o para pruebas de pasa/falla donde es extremadamente importante proporcionar una buena retroalimentación. Algunas modificaciones son necesarias para una CAT de aprobado/reprobado, también conocida como prueba de clasificación computarizada (CCT). Para los examinados con puntuaciones reales muy cercanas a la puntuación aprobatoria, las pruebas de clasificación computarizadas darán lugar a pruebas largas, mientras que aquellos con puntuaciones reales muy por encima o por debajo de la puntuación aprobatoria tendrán exámenes más cortos.

Por ejemplo, se debe aplicar un nuevo criterio de finalización y un algoritmo de puntuación que clasifique al examinado en una categoría en lugar de proporcionar una estimación puntual de su capacidad. Hay dos metodologías principales disponibles para esto. La más destacada de las dos es la prueba de razón de probabilidad secuencial (SPRT). Esto formula el problema de clasificación del examinado como una prueba de hipótesis de que la capacidad del examinado es igual a algún punto específico por encima de la puntuación de corte u otro punto específico por debajo de la puntuación de corte. Tenga en cuenta que ésta es una formulación de hipótesis puntual en lugar de una formulación de hipótesis compuesta que es conceptualmente más apropiada. Una formulación de hipótesis compuesta sería que la capacidad del examinado está en la región por encima del puntaje de corte o en la región por debajo del puntaje de corte.

También se utiliza un enfoque de intervalo de confianza, donde después de administrar cada ítem, el algoritmo determina la probabilidad de que la puntuación real del examinado esté por encima o por debajo de la puntuación aprobatoria. Por ejemplo, el algoritmo puede continuar hasta que el intervalo de confianza del 95% para la puntuación verdadera ya no contenga la puntuación aprobatoria. En ese punto, no se necesitan más elementos porque la decisión de aprobar o reprobar ya tiene una precisión del 95%, asumiendo que los modelos psicométricos subyacentes a las pruebas adaptativas se ajustan al examinado y a la prueba. Este enfoque se denominó originalmente "pruebas de dominio adaptativo" pero se puede aplicar a situaciones de selección y clasificación de ítems no adaptativas de dos o más puntuaciones (la prueba de dominio típica tiene una única puntuación).

Como cuestión práctica, el algoritmo generalmente está programado para tener una duración mínima y máxima de la prueba (o un tiempo de administración mínimo y máximo). De lo contrario, sería posible que un examinado con una capacidad muy cercana a la puntuación de corte pudiera administrar todos los elementos del banco sin que el algoritmo tomara una decisión.

El algoritmo de selección de artículos utilizado depende del criterio de terminación. Maximizar la información en la puntuación de corte es más apropiado para el SPRT porque maximiza la diferencia en las probabilidades utilizadas en el índice de verosimilitud. Maximizar la información en la estimación de la capacidad es más apropiado para el enfoque del intervalo de confianza porque minimiza el error estándar condicional de medición, lo que disminuye la amplitud del intervalo de confianza necesario para hacer una clasificación.

Limitaciones prácticas de adaptación

La investigadora de ETS, Martha Stocking, ha bromeado diciendo que la mayoría de las pruebas adaptativas son en realidad pruebas apenas adaptativas (BAT) porque, en la práctica, se imponen muchas restricciones a la elección de elementos. Por ejemplo, los exámenes CAT normalmente deben cumplir con especificaciones de contenido; Es posible que un examen verbal deba estar compuesto por un número igual de analogías, tipos de ítems para completar espacios en blanco y sinónimos. Los CAT suelen tener algún tipo de restricción de exposición de elementos, para evitar que los elementos más informativos queden sobreexpuestos. Además, en algunas pruebas, se intenta equilibrar las características superficiales de los elementos, como el género de las personas en los elementos o las etnias implícitas en sus nombres. Por lo tanto, los exámenes CAT con frecuencia están limitados en cuanto a los elementos que puede elegir y, para algunos exámenes, las restricciones pueden ser sustanciales y requerir estrategias de búsqueda complejas (por ejemplo, programación lineal) para encontrar elementos adecuados.

Un método simple para controlar la exposición de elementos es el método "randomesque" o strata. En lugar de seleccionar el elemento más informativo en cada punto de la prueba, el algoritmo selecciona al azar el siguiente artículo de los próximos cinco o diez elementos más informativos. Esto se puede utilizar a lo largo de la prueba, o sólo al principio. Otro método es el método Sympson-Hetter, en el que se extrae un número aleatorio de U(0,1), y en comparación con un ki parámetro determinado para cada elemento por el usuario de prueba. Si el número al azar es mayor que el ki, el siguiente elemento más informativo es considerado.

Wim van der Linden y sus colegas han propuesto un enfoque alternativo llamado prueba de sombra que implica la creación de pruebas de sombra completas como parte de la selección de elementos. La selección de elementos de las pruebas paralelas ayuda a que las pruebas adaptativas cumplan con los criterios de selección al centrarse en opciones globalmente óptimas (a diferencia de las opciones que son óptimas para un elemento determinado).

Multidimensional

Dado un conjunto de artículos, una prueba de adaptación multidimensional de ordenadores (MCAT) selecciona esos artículos del banco según las capacidades estimadas del estudiante, dando lugar a una prueba individualizada. Los MCAT buscan maximizar la precisión de la prueba, basada en múltiples habilidades de examen simultáneo (a diferencia de una prueba de adaptación informática – CAT – que evalúa una sola habilidad) utilizando la secuencia de elementos previamente contestados (Piton-Gonçalves y Aluisio, 2012).

Contenido relacionado

Tarjeta perforada

Una tarjeta perforada es un trozo de papel rígido que contiene datos digitales representados por la presencia o ausencia de agujeros en posiciones...

CPython

CPython es la implementación de referencia del lenguaje de programación Python. Escrito en C y Python, CPython es la implementación predeterminada y más...

Arquitectura Harvard

La Arquitectura Harvard es un modelo de arquitectura informática que separa físicamente la memoria de código de programa de la memoria de almacenamiento de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save