Validez de constructo

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

La validez de constructo se refiere a qué tan bien un conjunto de indicadores representa o refleja un concepto que no es directamente mensurable. La validación de constructo es la acumulación de evidencia para respaldar la interpretación de lo que refleja una medida. La teoría de la validez moderna define la validez de constructo como la preocupación general de la investigación sobre la validez, que incluye todos los demás tipos de evidencia de validez, como la validez de contenido y la validez de criterio.

La validez de constructo es la idoneidad de las inferencias realizadas sobre la base de observaciones o mediciones (a menudo puntuaciones de pruebas), específicamente si se puede considerar razonablemente que una prueba refleja el constructo previsto. Los constructos son abstracciones creadas deliberadamente por los investigadores para conceptualizar la variable latente, que se correlaciona con las puntuaciones en una medida determinada (aunque no es directamente observable). La validez de constructo examina la pregunta: ¿Se comporta la medida como la teoría dice que debería comportarse una medida de ese constructo?

La validez de constructo es esencial para la validez general percibida de la prueba. La validez de constructo es particularmente importante en las ciencias sociales, la psicología, la psicometría y los estudios del lenguaje.

Psicólogos como Samuel Messick (1998) han impulsado una visión unificada de la validez de constructo... como un juicio evaluativo integrado del grado en que la evidencia empírica y los fundamentos teóricos apoyan la adecuación y adecuación de las inferencias y acciones basadas en los resultados de los exámenes..." Si bien los puntos de vista de Messick se popularizaron en la medición educativa y se originaron en una carrera en torno a explicar la validez en el contexto de la industria de las pruebas, una definición más acorde con la investigación psicológica fundamental, respaldada por estudios empíricos basados en datos que enfatizan lo estadístico y causal. El razonamiento fue dado por (Borsboom et al., 2004).

La clave para la validez de constructo son las ideas teóricas detrás del rasgo bajo consideración, es decir, los conceptos que organizan cómo se ven los aspectos de la personalidad, la inteligencia, etc. Paul Meehl afirma que "el mejor constructo es aquel en torno al cual podemos construir el mayor número de inferencias, de la manera más directa".

La purificación de escalas, es decir, "el proceso de eliminación de elementos de escalas de varios puntos" (Wieland et al., 2017) puede influir en la validez de la construcción. Un marco presentado por Wieland et al. (2017) pone de relieve que es necesario tener en cuenta los criterios estadísticos y de criterio al adoptar decisiones de purificación de la escala.

Historia

A lo largo de la década de 1940, los científicos habían intentado encontrar formas de validar los experimentos antes de publicarlos. El resultado de esto fue una plétora de validez diferentes (validez intrínseca, validez aparente, validez lógica, validez empírica, etc.). Esto hacía difícil saber cuáles eran realmente iguales y cuáles no eran útiles en absoluto. Hasta mediados de la década de 1950, había muy pocos métodos universalmente aceptados para validar experimentos psicológicos. La razón principal fue que nadie había determinado exactamente qué cualidades de los experimentos debían examinarse antes de publicarlos. Entre 1950 y 1954, el Comité de Pruebas Psicológicas de la APA se reunió y discutió las cuestiones relacionadas con la validación de experimentos psicológicos.

Por esta época, el término validez de constructo fue acuñado por primera vez por Paul Meehl y Lee Cronbach en su artículo fundamental "Validez de constructo en pruebas psicológicas". Observaron la idea de que la validez de constructo no era nueva en ese momento; más bien, fue una combinación de muchos tipos diferentes de validez relacionados con conceptos teóricos. Propusieron los siguientes tres pasos para evaluar la validez de constructo:

  1. articulando un conjunto de conceptos teóricos y sus interrelaciones
  2. desarrollar formas de medir los constructos hipotéticos propuestos por la teoría
  3. pruebas empíricas de las relaciones hipotetizadas

Muchos psicólogos notaron que un papel importante de la validación de constructos en psicometría era que ponía más énfasis en la teoría que en la validación. Este énfasis fue diseñado para abordar un requisito central de que la validación incluya alguna demostración de que la prueba mide el constructo teórico que pretendía medir. La validez de constructo tiene tres aspectos o componentes: el componente sustantivo, el componente estructural y el componente externo. Están estrechamente relacionados con tres etapas en el proceso de construcción de la prueba: constitución del conjunto de ítems, análisis y selección de la estructura interna del conjunto de ítems y correlación de las puntuaciones de la prueba con los criterios y otras variables.

En la década de 1970 hubo un creciente debate entre los teóricos que comenzaron a ver la validez de constructo como el modelo dominante que impulsaba hacia una teoría de la validez más unificada, y aquellos que continuaron trabajando desde múltiples marcos de validez. Muchos psicólogos e investigadores en educación vieron "las validaciones predictiva, concurrente y de contenido como esencialmente ad hoc, la validez de constructo era la validez completa desde un punto de vista científico" En la versión de 1974 de Los estándares para pruebas educativas y psicológicas se reconoció la interrelación de los tres diferentes aspectos de la validez: "Estos aspectos de la validez pueden discutirse de forma independiente, pero sólo por conveniencia". . Están interrelacionados operativa y lógicamente; Sólo en raras ocasiones uno de ellos por sí solo es importante en una situación particular".

En 1989, Messick presentó una nueva conceptualización de la validez de constructo como un concepto unificado y multifacético. Bajo este marco, todas las formas de validez están conectadas y dependen de la calidad del constructo. Señaló que una teoría unificada no era su propia idea, sino más bien la culminación del debate y la discusión dentro de la comunidad científica durante las décadas anteriores. Hay seis aspectos de la validez de constructo en la teoría unificada de validez de constructo de Messick:

  1. Consequential – ¿Cuáles son los riesgos potenciales si los puntajes son inválidos o inapropiados? ¿La prueba todavía vale la pena dadas los riesgos?
  2. Índice – ¿Los elementos de prueba parecen medir la construcción del interés?
  3. sustantivo – ¿Es la base teórica subyacente la construcción del sonido del interés?
  4. Estructura – ¿Las interrelaciones de las dimensiones medida por la prueba correlacionan con la construcción de puntos de interés y prueba?
  5. Externo – ¿Tiene la prueba cualidades convergentes, discriminantes y predictivas?
  6. Generalizability – ¿La prueba se generaliza en diferentes grupos, configuraciones y tareas?

La forma en que debe considerarse correctamente la validez de la construcción sigue siendo objeto de debate para los teóricos de la validez. El núcleo de la diferencia radica en una diferencia epistemológica entre teóricos positivistas y pospositivistas.

Evaluación

La evaluación de la validez de constructo requiere que las correlaciones de la medida se examinen con respecto a variables que se sabe que están relacionadas con el constructo (supuestamente medidas por el instrumento que se evalúa o para las cuales existen bases teóricas para esperar que estén relacionadas). ). Esto es consistente con la matriz multirrasgo-multimétodo (MTMM) para examinar la validez de constructo descrita en el artículo histórico de Campbell y Fiske (1959). Existen otros métodos para evaluar la validez de constructo además del MTMM. Puede evaluarse mediante diferentes formas de análisis factorial, modelado de ecuaciones estructurales (SEM) y otras evaluaciones estadísticas. Es importante señalar que un solo estudio no prueba la validez de constructo. Más bien es un proceso continuo de evaluación, reevaluación, refinamiento y desarrollo. Las correlaciones que se ajustan al patrón esperado aportan evidencia de validez de constructo. La validez de constructo es un juicio basado en la acumulación de correlaciones de numerosos estudios que utilizan el instrumento que se evalúa.

La mayoría de los investigadores intentan probar la validez de constructo antes de la investigación principal. Para ello se pueden utilizar estudios piloto. Los estudios piloto son estudios preliminares a pequeña escala destinados a probar la viabilidad de una prueba a gran escala. Estos estudios piloto establecen la solidez de su investigación y les permiten realizar los ajustes necesarios. Otro método es la técnica de grupos conocidos, que implica administrar el instrumento de medición a grupos que se espera que difieran debido a características conocidas. Las pruebas de relaciones hipotéticas implican un análisis lógico basado en teoría o investigaciones previas. Los estudios de intervención son otro método más para evaluar la validez de constructo. Los estudios de intervención en los que se evalúa a un grupo con puntuaciones bajas en el constructo, se le enseña el constructo y luego se vuelve a medir pueden demostrar la validez del constructo de una prueba. Si hay una diferencia significativa entre la prueba previa y la prueba posterior, que se analizan mediante pruebas estadísticas, entonces esto puede demostrar una buena validez de constructo.

Validez convergente y discriminante

La validez convergente y discriminante son los dos subtipos de validez que componen la validez de constructo. La validez convergente se refiere al grado en que dos medidas de constructos que teóricamente deberían estar relacionadas, en realidad lo están. Por el contrario, la validez discriminante prueba si conceptos o mediciones que se supone que no están relacionados, en realidad no lo están. Tomemos, por ejemplo, un constructo de felicidad general. Si una medida de felicidad general tuviera validez convergente, entonces constructos similares a la felicidad (satisfacción, contentamiento, alegría, etc.) deberían relacionarse positivamente con la medida de felicidad general. Si esta medida tiene validez discriminante, entonces los constructos que se supone no están relacionados positivamente con la felicidad general (tristeza, depresión, desesperación, etc.) no deberían relacionarse con la medida de felicidad general. Las medidas pueden tener uno de los subtipos de validez de constructo y no el otro. Utilizando el ejemplo de la felicidad general, un investigador podría crear un inventario en el que exista una correlación positiva muy alta entre la felicidad general y la satisfacción, pero si también existe una correlación positiva significativa entre la felicidad y la depresión, entonces la validez de constructo de la medida se pone en duda. La prueba tiene validez convergente pero no validez discriminante.

Red nomológica

Lee Cronbach y Paul Meehl (1955) propusieron que el desarrollo de una red nomológica era esencial para medir la validez de constructo de una prueba. Una red nomológica define un constructo ilustrando su relación con otros constructos y comportamientos. Es una representación de los conceptos (constructos) de interés en un estudio, sus manifestaciones observables y la interrelación entre ellos. Examina si las relaciones entre constructos similares se consideran relaciones entre las medidas observadas de los constructos. Una observación minuciosa de las relaciones de los constructos entre sí puede generar nuevos constructos. Por ejemplo, la inteligencia y la memoria de trabajo se consideran constructos altamente relacionados. A través de la observación de sus componentes subyacentes, los psicólogos desarrollaron nuevos constructos teóricos como: atención controlada y carga a corto plazo. La creación de una red nomológica también puede hacer que la observación y medición de constructos existentes sea más eficiente al identificar errores. Los investigadores han descubierto que el estudio de las protuberancias en el cráneo humano (frenología) no son indicadores de inteligencia, pero sí el volumen del cerebro. Al eliminar la teoría de la frenología de la red nomológica de la inteligencia y agregar la teoría de la evolución de la masa cerebral, las construcciones de la inteligencia se vuelven más eficientes y poderosas. El tejido de todos estos conceptos interrelacionados y sus rasgos observables crea una "red" que sustenta su concepto teórico. Por ejemplo, en la red nomológica del rendimiento académico, esperaríamos que los rasgos observables del rendimiento académico (es decir, puntuaciones de GPA, SAT y ACT) se relacionaran con los rasgos observables del estudio (horas dedicadas a estudiar, atención en clase, detalle de las notas). . Si no lo hacen, entonces hay un problema con la medición (del rendimiento académico o del estudio) o con la supuesta teoría del rendimiento. Si son indicadores unos de otros, entonces se fortalece la red nomológica, y por tanto la teoría construida, del rendimiento académico. Aunque la red nomológica propuso una teoría sobre cómo fortalecer los constructos, no nos dice cómo podemos evaluar la validez del constructo en un estudio.

Matriz multirrasgo-multimétodo

La matriz multirrasgo-multimétodo (MTMM) es un enfoque para examinar la validez de constructo desarrollado por Campbell y Fiske (1959). Este modelo examina la convergencia (evidencia de que diferentes métodos de medición de un constructo dan resultados similares) y la discriminabilidad (capacidad de diferenciar el constructo de otros constructos relacionados). Mide seis rasgos: la evaluación de la validez convergente, la evaluación de la validez discriminante (divergente), las unidades rasgo-método, los multirrasgo-multimétodos, las metodologías verdaderamente diferentes y las características de los rasgos. Este diseño permite a los investigadores probar: "convergencia entre diferentes medidas... de la misma 'cosa'... y divergencia entre medidas... de medidas relacionadas pero conceptualmente distintas ' cosas'.

Amenazas para construir la validez

La validez de constructo aparente puede ser engañosa debido a una variedad de problemas en la formulación de hipótesis y el diseño experimental.

  • Hipótesis adivinando: Si el participante sabe, o adivina, el resultado deseado, las acciones del participante pueden cambiar. Un ejemplo es el efecto Hawthorne: en un estudio de ergonomía industrial realizado en la fábrica Hawthorne Works fuera de Chicago, los experimentadores observaron que ambos bajando y El aumento de los niveles de luz ambiental mejoró la productividad de los trabajadores. Finalmente determinaron la base para este resultado paradójico: los trabajadores que estaban conscientes de ser observados trabajaron más duro sin importar el cambio en el medio ambiente.
  • Bias en diseño experimental (intencional o no intencional). Un ejemplo de esto se proporciona en el libro de Stephen Jay Gould de 1981 "La Mismeasure of Man". Entre las preguntas utilizadas alrededor del tiempo de la Primera Guerra Mundial en la batería utilizada para medir la inteligencia estaba "¿En qué ciudad juegan los Dodger?" (entonces estaban basados en Brooklyn). Los inmigrantes recientes a Estados Unidos de Europa del Este desconocidos con el deporte del béisbol se equivocaron, y esto se utilizó para inferir que los europeos del Este tenían menor inteligencia. La pregunta no midió la inteligencia: sólo midió cuánto tiempo había vivido en los Estados Unidos y se convirtió en aculcado a un pasatiempo popular.
  • Expectativas de los investigadores se puede comunicar sin querer a los participantes no verbalmente, provocando el efecto deseado. Para controlar esta posibilidad, se deben utilizar diseños experimentales de doble ciego cuando sea posible. Es decir, el evaluador de un participante en particular debe desconocer qué intervención se ha realizado en ese participante en particular o debe ser independiente del experimentador.
  • Definición de los resultados previstos demasiado estrecha. Por ejemplo, el uso de la satisfacción laboral para medir la felicidad excluirá la información pertinente fuera del lugar de trabajo.
  • Variables de confusión (covaria): La causa raíz de los efectos observados puede deberse a variables que no se han considerado o medido.

En Trochim se presenta una exploración en profundidad de las amenazas a la validez de constructo.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save