Psicometría

Ajustar Compartir Imprimir Citar

La psicometría es un campo de estudio dentro de la psicología relacionado con la teoría y la técnica de la medición. La psicometría generalmente se refiere a campos especializados dentro de la psicología y la educación dedicados a las pruebas, medidas, evaluaciones y actividades relacionadas. La psicometría se ocupa de la medición objetiva de construcciones latentes que no se pueden observar directamente. Los ejemplos de construcciones latentes incluyen inteligencia, introversión, trastornos mentales y logros educativos. Los niveles de los individuos en las variables latentes no observables se infieren a través de modelos matemáticos basados en lo que se observa de las respuestas de los individuos a los elementos de las pruebas y escalas.

Los profesionales se describen como psicometristas, aunque no todos los que se dedican a la investigación psicométrica reciben este título. Los psicometristas suelen poseer una calificación específica, como títulos o certificaciones, y la mayoría son psicólogos con formación avanzada de posgrado en psicometría y teoría de la medición. Además de las instituciones académicas tradicionales, los profesionales también trabajan para organizaciones como el Servicio de Pruebas Educativas y la Corporación Psicológica. Algunos investigadores psicométricos se enfocan en la construcción y validación de instrumentos de evaluación que incluyen encuestas, escalas y cuestionarios abiertos o cerrados. Otros se centran en la investigación relacionada con la teoría de la medición (p. ej., la teoría de la respuesta al ítem, la correlación intraclase) o se especializan como profesionales del aprendizaje y el desarrollo.

Fundación histórica

Las pruebas psicológicas provienen de dos corrientes de pensamiento: la primera, de Darwin, Galton y Cattell sobre la medición de las diferencias individuales, y la segunda, de Herbart, Weber, Fechner y Wundt y sus mediciones psicofísicas de una construcción similar. El segundo grupo de individuos y su investigación es lo que ha llevado al desarrollo de la psicología experimental y las pruebas estandarizadas.

Arroyo victoriano

Charles Darwin fue la inspiración detrás de Sir Francis Galton, un científico que hizo avanzar el desarrollo de la psicometría. En 1859, Darwin publicó su libro El origen de las especies.. Darwin describió el papel de la selección natural en el surgimiento, a lo largo del tiempo, de diferentes poblaciones de especies de plantas y animales. El libro mostró cómo los miembros individuales de una especie difieren entre sí y cómo poseen características que se adaptan más o menos a su entorno. Aquellos con características más adaptativas tienen más probabilidades de sobrevivir para procrear y dar lugar a otra generación. Aquellos con características menos adaptativas son menos probables. Estas ideas estimularon el interés de Galton por el estudio de los seres humanos y cómo se diferencian unos de otros y, lo que es más importante, cómo medir esas diferencias.

Galton escribió un libro titulado Genio hereditario. El libro describe diferentes características que poseen las personas y cómo esas características hacen que algunas se "encajen" más que otras. Hoy en día, estas diferencias, como el funcionamiento sensorial y motor (tiempo de reacción, agudeza visual y fuerza física), son dominios importantes de la psicología científica. Gran parte del trabajo teórico y aplicado temprano en psicometría se llevó a cabo en un intento de medir la inteligencia. Galton, a quien a menudo se hace referencia como "el padre de la psicometría", ideó e incluyó pruebas mentales entre sus medidas antropométricas. James McKeen Cattell, un pionero en el campo de la psicometría, continuó ampliando el trabajo de Galton. Cattell acuñó el término prueba mental, y es responsable de la investigación y el conocimiento que finalmente condujo al desarrollo de las pruebas modernas.

(inglés) 6 tipos básicos de tests psicométricos: numérico, verbal, inductivo, espacial, lógico y chequeo

Corriente alemana

El origen de la psicometría también tiene conexiones con el campo relacionado de la psicofísica. Casi al mismo tiempo que Darwin, Galton y Cattell estaban haciendo sus descubrimientos, Herbart también estaba interesado en "desvelar los misterios de la conciencia humana" a través del método científico. Herbart fue responsable de crear modelos matemáticos de la mente, que fueron influyentes en las prácticas educativas de los años venideros.

EH Weber se basó en el trabajo de Herbart y trató de probar la existencia de un umbral psicológico, diciendo que era necesario un estímulo mínimo para activar un sistema sensorial. Después de Weber, GT Fechner amplió el conocimiento que obtuvo de Herbart y Weber para idear la ley de que la fuerza de una sensación crece como el logaritmo de la intensidad del estímulo. Seguidor de Weber y Fechner, a Wilhelm Wundt se le atribuye la fundación de la ciencia de la psicología. Es la influencia de Wundt la que allanó el camino para que otros desarrollaran pruebas psicológicas.

Siglo 20

En 1936, el psicometrista LL Thurstone, fundador y primer presidente de la Psychometric Society, desarrolló y aplicó un enfoque teórico de la medición denominado ley del juicio comparativo, un enfoque que tiene estrechas conexiones con la teoría psicofísica de Ernst Heinrich Weber y Gustav Fechner. Además, Spearman y Thurstone hicieron contribuciones importantes a la teoría y aplicación del análisis factorial, un método estadístico desarrollado y utilizado ampliamente en psicometría.A fines de la década de 1950, Leopold Szondi hizo una evaluación histórica y epistemológica del impacto del pensamiento estadístico en la psicología durante las décadas anteriores: "en las últimas décadas, el pensamiento específicamente psicológico ha sido casi completamente suprimido y eliminado, y reemplazado por un pensamiento estadístico Precisamente aquí vemos el cáncer de testología y testomanía de hoy”.

Más recientemente, la teoría psicométrica se ha aplicado en la medición de la personalidad, las actitudes y creencias y el rendimiento académico. Estos constructos latentes no pueden medirse realmente, y gran parte de la investigación y la ciencia en esta disciplina se ha desarrollado en un intento de medir estos constructos lo más cerca posible de la puntuación real.

Las figuras que hicieron contribuciones significativas a la psicometría incluyen a Karl Pearson, Henry F. Kaiser, Carl Brigham, LL Thurstone, EL Thorndike, Georg Rasch, Eugene Galanter, Johnson O'Connor, Frederic M. Lord, Ledyard R Tucker, Louis Guttman y Jane. Loevinger.

Definición de medición en las ciencias sociales

La definición de medición en las ciencias sociales tiene una larga historia. Una definición extendida actual, propuesta por Stanley Smith Stevens, es que la medida es "la asignación de números a objetos o eventos de acuerdo con alguna regla". Esta definición se introdujo en un artículo de Science de 1946 en el que Stevens proponía cuatro niveles de medición. Aunque ampliamente adoptada, esta definición difiere en aspectos importantes de la definición más clásica de medida adoptada en las ciencias físicas, a saber, que la medida científica implica "la estimación o el descubrimiento de la relación entre alguna magnitud de un atributo cuantitativo y una unidad del mismo atributo". (pág. 358)

De hecho, la definición de medida de Stevens se presentó en respuesta al Comité Británico de Ferguson, cuyo presidente, A. Ferguson, era un físico. El comité fue designado en 1932 por la Asociación Británica para el Avance de la Ciencia para investigar la posibilidad de estimar cuantitativamente los eventos sensoriales. Aunque su presidente y otros miembros eran físicos, el comité también incluía a varios psicólogos. El informe del comité destacó la importancia de la definición de medición. Si bien la respuesta de Stevens fue proponer una nueva definición, que ha tenido una influencia considerable en el campo, de ninguna manera fue la única respuesta al informe. Otra respuesta, notablemente diferente, fue aceptar la definición clásica, como se refleja en la siguiente declaración:Las mediciones en psicología y física no son en ningún sentido diferentes. Los físicos pueden medir cuándo pueden encontrar las operaciones mediante las cuales pueden cumplir los criterios necesarios; los psicólogos tienen que hacer lo mismo. No necesitan preocuparse por las misteriosas diferencias entre el significado de la medición en las dos ciencias (Reese, 1943, p. 49).

Estas respuestas divergentes se reflejan en enfoques alternativos de medición. Por ejemplo, los métodos basados en matrices de covarianza suelen emplearse bajo la premisa de que los números, como las puntuaciones brutas derivadas de las evaluaciones, son medidas. Tales enfoques implican implícitamente la definición de medida de Stevens, que requiere solo que los números se asignen de acuerdo con alguna regla. Por lo tanto, generalmente se considera que la principal tarea de investigación es el descubrimiento de asociaciones entre puntajes y de los factores postulados para subyacer a tales asociaciones.

Por otro lado, cuando se emplean modelos de medición como el modelo de Rasch, los números no se asignan en base a una regla. En cambio, de acuerdo con la declaración anterior de Reese, se establecen criterios específicos para la medición y el objetivo es construir procedimientos u operaciones que proporcionen datos que cumplan con los criterios relevantes. Las mediciones se estiman en base a los modelos y se realizan pruebas para determinar si se han cumplido los criterios pertinentes.

Instrumentos y procedimientos

Los primeros instrumentos psicométricos fueron diseñados para medir la inteligencia. Uno de los primeros enfoques para medir la inteligencia fue la prueba desarrollada en Francia por Alfred Binet y Theodore Simon. Esa prueba se conocía como Test Binet-Simon [ fr ]. La prueba francesa fue adaptada para su uso en los EE. UU. por Lewis Terman de la Universidad de Stanford y se denominó prueba de coeficiente intelectual de Stanford-Binet.

Otro enfoque importante en psicometría ha sido en las pruebas de personalidad. Ha habido una variedad de enfoques teóricos para conceptualizar y medir la personalidad, aunque no existe una teoría ampliamente aceptada. Algunos de los instrumentos más conocidos incluyen el Inventario de Personalidad Multifásico de Minnesota, el Modelo de Cinco Factores (o "5 Grandes") y herramientas como el Inventario de Personalidad y Preferencias y el Indicador de Tipo Myers-Briggs. Las actitudes también se han estudiado ampliamente utilizando enfoques psicométricos. Un método alternativo implica la aplicación de modelos de medición de despliegue, siendo el más general el modelo del coseno hiperbólico (Andrich & Luo, 1993).

Los dos grandes aspectos a tener en cuenta en la psicometría: la validez y la fiabilidad (inglés)

Enfoques teóricos

Los psicometristas han desarrollado varias teorías de medición diferentes. Estos incluyen la teoría de prueba clásica (CTT) y la teoría de respuesta al ítem (IRT). Un enfoque que parece matemáticamente similar a la TRI pero también bastante distintivo, en términos de sus orígenes y características, está representado por el modelo de medición de Rasch. El desarrollo del modelo de Rasch, y la clase más amplia de modelos a la que pertenece, se basó explícitamente en los requisitos de medición de las ciencias físicas.

Los psicometristas también han desarrollado métodos para trabajar con grandes matrices de correlaciones y covarianzas. Las técnicas en esta tradición general incluyen: análisis factorial, un método para determinar las dimensiones subyacentes de los datos. Uno de los principales desafíos que enfrentan los usuarios del análisis factorial es la falta de consenso sobre los procedimientos apropiados para determinar el número de factores latentes. Un procedimiento habitual es dejar de factorizar cuando los valores propios caen por debajo de uno porque la esfera original se encoge. La falta de puntos de corte afecta también a otros métodos multivariantes.

El escalado multidimensional es un método para encontrar una representación simple de datos con una gran cantidad de dimensiones latentes. El análisis de conglomerados es un enfoque para encontrar objetos que son similares entre sí. El análisis factorial, el escalamiento multidimensional y el análisis de conglomerados son métodos descriptivos multivariados que se utilizan para destilar estructuras más simples a partir de grandes cantidades de datos.

Más recientemente, el modelado de ecuaciones estructurales y el análisis de rutas representan enfoques más sofisticados para trabajar con matrices de covarianza grandes. Estos métodos permiten ajustar modelos estadísticamente sofisticados a los datos y probarlos para determinar si se ajustan adecuadamente. Debido a que la investigación psicométrica a nivel granular se ocupa del alcance y la naturaleza de la multidimensionalidad en cada uno de los elementos de interés, un procedimiento relativamente nuevo conocido como análisis bifactorial puede ser útil. El análisis bifactorial puede descomponer "la varianza sistemática de un elemento en términos de, idealmente, dos fuentes, un factor general y una fuente de varianza sistemática adicional".

Conceptos clave

Los conceptos clave en la teoría clásica de las pruebas son la confiabilidad y la validez. Una medida confiable es aquella que mide un constructo consistentemente a lo largo del tiempo, individuos y situaciones. Una medida válida es aquella que mide lo que se pretende medir. La fiabilidad es necesaria, pero no suficiente, para la validez.

Tanto la fiabilidad como la validez pueden evaluarse estadísticamente. La consistencia sobre medidas repetidas de la misma prueba se puede evaluar con el coeficiente de correlación de Pearson y, a menudo, se denomina confiabilidad de prueba-reprueba. De manera similar, la equivalencia de diferentes versiones de la misma medida puede indexarse mediante una correlación de Pearson, y se denomina confiabilidad de formas equivalentes o un término similar.

La consistencia interna, que aborda la homogeneidad de un solo formulario de prueba, puede evaluarse correlacionando el desempeño en dos mitades de una prueba, lo que se denomina confiabilidad dividida por mitades; el valor de este coeficiente de correlación producto-momento de Pearson para dos semipruebas se ajusta con la fórmula de predicción de Spearman-Brown para que corresponda a la correlación entre dos pruebas completas. Quizás el índice de confiabilidad más utilizado es el α de Cronbach, que es equivalente a la media de todos los coeficientes de división por mitades posibles. Otros enfoques incluyen la correlación intraclase, que es la relación entre la varianza de las mediciones de un objetivo determinado y la varianza de todos los objetivos.

Hay un número de diferentes formas de validez. La validez relacionada con el criterio se refiere a la medida en que una prueba o escala predice una muestra de comportamiento, es decir, el criterio, que es "externo al propio instrumento de medición". Esa muestra externa de comportamiento puede ser muchas cosas, incluida otra prueba; promedio de calificaciones universitarias como cuando se usa el SAT de la escuela secundaria para predecir el desempeño en la universidad; e incluso el comportamiento que ocurrió en el pasado, por ejemplo, cuando se usa una prueba de síntomas psicológicos actuales para predecir la ocurrencia de victimización pasada (que representaría con precisión la postdicción). Cuando la medida de criterio se recopila al mismo tiempo que la medida que se valida, el objetivo es establecer la validez concurrente; cuando el criterio se recoge posteriormente el objetivo es establecer la validez predictiva. Una medida tiene validez de constructo si se relaciona con medidas de otros constructos según lo requiera la teoría. La validez de contenido es una demostración de que los ítems de una prueba hacen un trabajo adecuado para cubrir el dominio que se mide. En un ejemplo de selección de personal, el contenido de la prueba se basa en una declaración definida o un conjunto de declaraciones de conocimiento, habilidad, habilidad u otras características obtenidas de un análisis de trabajo.

La teoría de la respuesta al ítem modela la relación entre los rasgos latentes y las respuestas a los ítems de prueba. Entre otras ventajas, IRT proporciona una base para obtener una estimación de la ubicación de un examinado en un rasgo latente dado, así como el error estándar de medición de esa ubicación. Por ejemplo, el conocimiento de historia de un estudiante universitario puede deducirse de su puntaje en un examen universitario y luego compararse de manera confiable con el conocimiento de un estudiante de secundaria deducido de un examen menos difícil. Las puntuaciones derivadas de la teoría clásica de las pruebas no tienen esta característica, y la evaluación de la capacidad real (en lugar de la capacidad relativa a otros examinados) debe evaluarse comparando las puntuaciones con las de un "grupo estándar" seleccionado al azar de la población. De hecho,

Estándares de calidad

Las consideraciones de validez y confiabilidad generalmente se consideran elementos esenciales para determinar la calidad de cualquier prueba. Sin embargo, las asociaciones de profesionales y practicantes con frecuencia han colocado estas preocupaciones dentro de contextos más amplios al desarrollar estándares y hacer juicios generales sobre la calidad de cualquier prueba en su conjunto dentro de un contexto dado. Una consideración de preocupación en muchos entornos de investigación aplicada es si la métrica de un inventario psicológico dado es significativa o arbitraria.

Estándares de prueba

En 2014, la Asociación Estadounidense de Investigación Educativa (AERA), la Asociación Estadounidense de Psicología (APA) y el Consejo Nacional de Medición en Educación (NCME) publicaron una revisión de los Estándares para las pruebas educativas y psicológicas, que describe los estándares para el desarrollo, la evaluación y la evaluación de las pruebas. y use. Los Estándares cubren temas esenciales en las pruebas, incluida la validez, la confiabilidad/errores de medición y la imparcialidad en las pruebas. El libro también establece estándares relacionados con las operaciones de prueba, incluido el diseño y desarrollo de pruebas, puntajes, escalas, normas, vinculación de puntajes, puntajes de corte, administración de exámenes, puntajes, informes, interpretación de puntajes, documentación de exámenes y derechos y responsabilidades de los examinados y usuarios de exámenes.. Finalmente, las Normascubrir temas relacionados con las aplicaciones de las pruebas, incluidas las pruebas y evaluaciones psicológicas, las pruebas y acreditación en el lugar de trabajo, las pruebas y evaluaciones educativas y las pruebas en la evaluación de programas y las políticas públicas.

Estándares de evaluación

En el campo de la evaluación, y en particular de la evaluación educativa, el Comité Conjunto de Estándares para la Evaluación Educativa ha publicado tres conjuntos de estándares para la evaluación. Los Estándares de evaluación del personal se publicaron en 1988, Los Estándares de evaluación del programa (segunda edición) se publicaron en 1994 y Los Estándares de evaluación de estudiantes se publicaron en 2003.

Cada publicación presenta y elabora un conjunto de normas para su uso en una variedad de entornos educativos. Los estándares proporcionan pautas para diseñar, implementar, evaluar y mejorar la forma de evaluación identificada. Cada uno de los estándares ha sido colocado en una de cuatro categorías fundamentales para promover evaluaciones educativas que sean adecuadas, útiles, factibles y precisas. En estos conjuntos de estándares, las consideraciones de validez y confiabilidad se tratan en el tema de la precisión. Por ejemplo, los estándares de precisión de los estudiantes ayudan a garantizar que las evaluaciones de los estudiantes brinden información sólida, precisa y creíble sobre el aprendizaje y el desempeño de los estudiantes.

Controversia y crítica

Debido a que la psicometría se basa en procesos psicológicos latentes medidos a través de correlaciones, ha habido controversia sobre algunas medidas psicométricas. Los críticos, incluidos los profesionales de las ciencias físicas, han argumentado que tal definición y cuantificación es difícil, y que los legos a menudo hacen un mal uso de tales medidas, como con las pruebas de personalidad utilizadas en los procedimientos de empleo. Los Estándares para la Medición Educativa y Psicológica dan la siguiente declaración sobre la validez de las pruebas: "la validez se refiere al grado en que la evidencia y la teoría respaldan las interpretaciones de los puntajes de las pruebas que implican los usos propuestos de las pruebas". En pocas palabras, una prueba no es válida a menos que se use e interprete de la manera prevista.

Dos tipos de herramientas que se utilizan para medir los rasgos de personalidad son las pruebas objetivas y las medidas proyectivas. Ejemplos de tales pruebas son: Big Five Inventory (BFI), Minnesota Multiphasic Personality Inventory (MMPI-2), Rorschach Inkblot test, Neurotic Personality Questionnaire KON-2006 o Eysenck's Personality Questionnaire (EPQ-R). Algunas de estas pruebas son útiles porque tienen una confiabilidad y validez adecuadas, dos factores que hacen que las pruebas sean reflejos consistentes y precisos del constructo subyacente. Sin embargo, el indicador de tipo Myers-Briggs (MBTI) tiene una validez cuestionable y ha sido objeto de muchas críticas. El especialista en psicometría Robert Hogan escribió sobre la medida: "La mayoría de los psicólogos de la personalidad consideran que el MBTI es poco más que una elaborada galleta de la fortuna china".

Lee Cronbach señaló en American Psychologist (1957) que "la psicología correlacional, aunque tan antigua como la experimentación, tardó más en madurar. Sin embargo, califica igualmente como disciplina porque plantea un tipo distintivo de pregunta y tiene métodos técnicos para examinar si la pregunta se ha formulado correctamente y los datos se han interpretado correctamente". Continuaría diciendo: "El método de la correlación, por su parte, puede estudiar lo que el hombre no ha aprendido a controlar o nunca puede esperar controlar... Se requiere una verdadera federación de las disciplinas. Mantenidas independientes, solo pueden dar respuestas incorrectas o ninguna respuesta con respecto a ciertos problemas importantes".

No humanos: animales y máquinas

La psicometría aborda las habilidades humanas, las actitudes, los rasgos y la evolución educativa. Cabe destacar que el estudio del comportamiento, los procesos mentales y las habilidades de los animales no humanos suele ser abordado por la psicología comparada, o con un continuo entre los animales no humanos y el resto de animales por la psicología evolutiva. No obstante, hay algunos defensores de una transición más gradual entre el enfoque adoptado para los humanos y el enfoque adoptado para los animales (no humanos).

La evaluación de habilidades, rasgos y evolución del aprendizaje de las máquinas ha sido mayoritariamente ajena al caso de humanos y animales no humanos, con enfoques específicos en el área de la inteligencia artificial. También se ha propuesto un enfoque más integrado, bajo el nombre de psicometría universal.