Validez (estadísticas)

Compartir Imprimir Citar

La validez es la medida principal en que un concepto, una conclusión o una medida están bien fundamentados y probablemente se correspondan con precisión con el mundo real. La palabra "válido" se deriva del latín validus, que significa fuerte. La validez de una herramienta de medición (por ejemplo, una prueba en educación) es el grado en que la herramienta mide lo que pretende medir. La validez se basa en la solidez de una colección de diferentes tipos de evidencia (p. ej., validez aparente, validez de constructo, etc.) que se describen con mayor detalle a continuación.

En psicometría, la validez tiene una aplicación particular conocida como validez de la prueba: "el grado en que la evidencia y la teoría respaldan las interpretaciones de los puntajes de las pruebas" ("como lo implican los usos propuestos de las pruebas").

En general, se acepta que el concepto de validez científica aborda la naturaleza de la realidad en términos de medidas estadísticas y, como tal, es una cuestión epistemológica y filosófica, así como una cuestión de medición. El uso del término en lógica es más estrecho y se relaciona con la relación entre las premisas y la conclusión de un argumento. En lógica, la validez se refiere a la propiedad de un argumento por el cual si las premisas son verdaderas, entonces la verdad de la conclusión se sigue por necesidad. La conclusión de un argumento es verdadera si el argumento es sólido, es decir, si el argumento es válido y sus premisas son verdaderas. Por el contrario, la "validez científica o estadística" no es una afirmación deductiva que necesariamente preserva la verdad, sino una afirmación inductiva que sigue siendo verdadera o falsa de manera indecisa. Esta es la razón por "

La validez es importante porque puede ayudar a determinar qué tipos de pruebas usar y ayudar a asegurarse de que los investigadores estén usando métodos que no solo sean éticos y rentables, sino también un método que realmente mida la idea o las construcciones en cuestión.

Prueba de validez

Validez (precisión)

La validez de una evaluación es el grado en que mide lo que se supone que debe medir. Esto no es lo mismo que la confiabilidad, que es la medida en que una medición brinda resultados que son muy consistentes. Dentro de la validez, la medida no siempre tiene que ser similar, como sí ocurre en la fiabilidad. Sin embargo, solo porque una medida sea confiable, no es necesariamente válida. Por ejemplo, una báscula que pesa 5 libras es confiable pero no válida. Una prueba no puede ser válida a menos que sea confiable. La validez también depende de que la medición mida aquello para lo que fue diseñada y no otra cosa en su lugar. La validez (similar a la confiabilidad) es un concepto relativo; la validez no es una idea de todo o nada. Hay muchos tipos diferentes de validez.

Validez de constructo

La validez de constructo se refiere a la medida en que las operacionalizaciones de un constructo (p. ej., pruebas prácticas desarrolladas a partir de una teoría) miden un constructo tal como lo define una teoría. Subsume todos los demás tipos de validez. Por ejemplo, la medida en que una prueba mide la inteligencia es una cuestión de validez de construcción. Una medida de inteligencia supone, entre otras cosas, que la medida está asociada con cosas con las que debería estar asociada (validez convergente), no asociada con cosas con las que no debería estar asociada (validez discriminante).

La evidencia de validez de constructo implica el apoyo empírico y teórico para la interpretación del constructo. Tales líneas de evidencia incluyen análisis estadísticos de la estructura interna de la prueba, incluidas las relaciones entre las respuestas a los diferentes ítems de la prueba. También incluyen relaciones entre la prueba y las medidas de otros constructos. Tal como se entiende actualmente, la validez de constructo no es distinta del apoyo a la teoría sustantiva del constructo que la prueba está diseñada para medir. Como tal, los experimentos diseñados para revelar aspectos del papel causal del constructo también contribuyen a construir evidencia de validez.

Validez de contenido

La validez de contenido es un tipo de validez no estadística que involucra "el examen sistemático del contenido de la prueba para determinar si cubre una muestra representativa del dominio de comportamiento a medir" (Anastasi & Urbina, 1997 p. 114). Por ejemplo, ¿tiene un cuestionario de CI elementos que cubren todas las áreas de inteligencia discutidas en la literatura científica?

La evidencia de validez de contenido implica el grado en que el contenido de la prueba coincide con un dominio de contenido asociado con el constructo. Por ejemplo, una prueba de la capacidad de sumar dos números debe incluir una variedad de combinaciones de dígitos. Una prueba con solo números de un dígito, o solo números pares, no tendría una buena cobertura del dominio de contenido. La evidencia relacionada con el contenido generalmente involucra a un experto en la materia (SME) que evalúa los elementos de prueba contra las especificaciones de la prueba. Los expertos deben prestar atención a las diferencias culturales. Por ejemplo, cuando se adopta un cuestionario de evaluación de conducción de Inglaterra (por ejemplo, DBQ), los expertos deben considerar la conducción por la derecha en Gran Bretaña. Algunos estudios encontraron cómo esto será fundamental para obtener un cuestionario válido.Antes de pasar a la administración final de los cuestionarios, el investigador debe consultar la validez de los ítems frente a cada uno de los constructos o variables y en consecuencia modificar los instrumentos de medida en función de la opinión del SME.

Una prueba tiene una validez de contenido incorporada mediante una selección cuidadosa de los elementos que se incluirán (Anastasi y Urbina, 1997). Los elementos se eligen de modo que cumplan con la especificación de la prueba, que se elabora mediante un examen exhaustivo del dominio de la materia. Foxcroft, Paterson, le Roux & Herbst (2004, p. 49) señalan que mediante el uso de un panel de expertos para revisar las especificaciones de la prueba y la selección de elementos, se puede mejorar la validez de contenido de una prueba. Los expertos podrán revisar los elementos y comentar si los elementos cubren una muestra representativa del dominio del comportamiento.

Validez aparente

La validez aparente es una estimación de si una prueba parece medir un determinado criterio; no garantiza que la prueba realmente mida fenómenos en ese dominio. Las medidas pueden tener una alta validez, pero cuando la prueba no parece estar midiendo lo que es, tiene una baja validez aparente. De hecho, cuando una prueba está sujeta a falsificación (simulación), la baja validez aparente puede hacer que la prueba sea más válida. Teniendo en cuenta que uno puede obtener respuestas más honestas con una validez nominal más baja, a veces es importante hacer que parezca que hay una validez nominal baja mientras se administran las medidas.

La validez aparente está muy relacionada con la validez de contenido. Si bien la validez del contenido depende de una base teórica para suponer si una prueba evalúa todos los dominios de un determinado criterio (por ejemplo, ¿la evaluación de las habilidades de suma produce en buena medida habilidades matemáticas? Para responder a esto, debe saber qué diferentes tipos de habilidades aritméticas habilidades matemáticas incluyen) la validez aparente se relaciona con si una prueba parece ser una buena medida o no. Este juicio se hace sobre la "cara" de la prueba, por lo que también puede ser juzgado por el aficionado.

La validez aparente es un punto de partida, pero nunca se debe suponer que probablemente sea válida para un propósito dado, ya que los "expertos" se han equivocado antes: el Malleus Malificarum (Martillo de brujas) no tenía apoyo para sus conclusiones más que la autoevaluación. competencia imaginada de dos "expertos" en "detección de brujería", sin embargo, se utilizó como una "prueba" para condenar y quemar en la hoguera a decenas de miles de hombres y mujeres como "brujos".

Validez de criterio

La evidencia de validez de criterio implica la correlación entre la prueba y una variable (o variables) de criterio tomadas como representativas del constructo. En otras palabras, compara la prueba con otras medidas o resultados (los criterios) que ya se consideran válidos. Por ejemplo, las pruebas de selección de empleados a menudo se validan frente a medidas de desempeño laboral (el criterio), y las pruebas de coeficiente intelectual a menudo se validan frente a medidas de rendimiento académico (el criterio).

Si los datos de la prueba y los datos del criterio se recopilan al mismo tiempo, esto se denomina evidencia de validez concurrente. Si los datos de prueba se recopilan primero para predecir los datos de criterio recopilados en un momento posterior, esto se denomina evidencia de validez predictiva.

Validez concurrente

La validez concurrente se refiere al grado en que la operacionalización se correlaciona con otras medidas del mismo constructo que se miden al mismo tiempo. Cuando la medida se compara con otra medida del mismo tipo, estarán relacionadas (o correlacionadas). Volviendo al ejemplo de la prueba de selección, esto significaría que las pruebas se administran a los empleados actuales y luego se correlacionan con sus puntajes en las revisiones de desempeño.

Validez predictiva

La validez predictiva se refiere al grado en que la operacionalización puede predecir (o correlacionar con) otras medidas del mismo constructo que se miden en algún momento en el futuro. Nuevamente, con el ejemplo de la prueba de selección, esto significaría que las pruebas se administran a los solicitantes, todos los solicitantes son contratados, su desempeño se revisa en un momento posterior y luego se correlacionan sus puntajes en las dos medidas.

Esto es también cuando la medición predice una relación entre lo que se mide y otra cosa; predecir si lo otro sucederá o no en el futuro. La alta correlación entre los resultados predichos ex-ante y ex-post reales es la prueba más fuerte de validez.

Validez experimental

La validez del diseño de los estudios de investigación experimental es una parte fundamental del método científico y una preocupación de la ética de la investigación. Sin un diseño válido, no se pueden sacar conclusiones científicas válidas.

Validez de la conclusión estadística

La validez de la conclusión estadística es el grado en que las conclusiones sobre la relación entre las variables basadas en los datos son correctas o "razonables". Esto comenzó siendo únicamente sobre si la conclusión estadística sobre la relación de las variables era correcta, pero ahora hay un movimiento hacia conclusiones 'razonables' que usan: datos cuantitativos, estadísticos y cualitativos.

La validez de la conclusión estadística implica asegurar el uso de procedimientos de muestreo adecuados, pruebas estadísticas apropiadas y procedimientos de medición confiables. Como este tipo de validez se refiere únicamente a la relación que se encuentra entre las variables, la relación puede ser únicamente una correlación.

Validez interna

La validez interna es una estimación inductiva del grado en que se pueden sacar conclusiones sobre las relaciones causales (p. ej., causa y efecto), en función de las medidas utilizadas, el entorno de la investigación y todo el diseño de la investigación. Las buenas técnicas experimentales, en las que se estudia el efecto de una variable independiente sobre una variable dependiente en condiciones muy controladas, suelen permitir mayores grados de validez interna que, por ejemplo, los diseños de caso único.

Ocho tipos de variables de confusión pueden interferir con la validez interna (es decir, con el intento de aislar las relaciones causales):

Historia, los eventos específicos que ocurren entre la primera y la segunda medición además de las variables experimentales
Maduración, procesos dentro de los participantes en función del paso del tiempo (no específicos de eventos particulares), por ejemplo, envejecer, tener más hambre, más cansancio, etc.
Exámenes, los efectos de tomar un examen sobre los puntajes de un segundo examen.
La instrumentación, los cambios en la calibración de una herramienta de medición o los cambios en los observadores o anotadores pueden producir cambios en las mediciones obtenidas.
Regresión estadística, operando donde los grupos han sido seleccionados sobre la base de sus puntajes extremos.
Selección, sesgos resultantes de la selección diferencial de encuestados para los grupos de comparación.
Mortalidad experimental, o pérdida diferencial de encuestados de los grupos de comparación.
Interacción selección-maduración, etc., por ejemplo, en diseños cuasi-experimentales de múltiples grupos

Validez externa

La validez externa se refiere a la medida en que los resultados (internamente válidos) de un estudio pueden considerarse verdaderos para otros casos, por ejemplo, para diferentes personas, lugares o momentos. En otras palabras, se trata de si los hallazgos pueden generalizarse válidamente. Si se realizara el mismo estudio de investigación en esos otros casos, ¿obtendría los mismos resultados?

Un factor importante en esto es si la muestra del estudio (por ejemplo, los participantes de la investigación) es representativa de la población general en las dimensiones pertinentes. Otros factores que ponen en peligro la validez externa son:

Efecto reactivo o de interacción de las pruebas, una prueba previa podría aumentar las puntuaciones en una prueba posterior
Efectos de interacción de los sesgos de selección y la variable experimental.
Efectos reactivos de los arreglos experimentales, lo que impediría la generalización sobre el efecto de la variable experimental sobre las personas expuestas a ella en entornos no experimentales.
Interferencia de tratamientos múltiples, donde los efectos de tratamientos anteriores no se pueden borrar.

Validez ecológica

La validez ecológica es la medida en que los resultados de la investigación se pueden aplicar a situaciones de la vida real fuera de los entornos de investigación. Este tema está estrechamente relacionado con la validez externa, pero cubre la cuestión de hasta qué punto los hallazgos experimentales reflejan lo que se puede observar en el mundo real (ecología = la ciencia de la interacción entre el organismo y su entorno). Para que sea ecológicamente válido, los métodos, los materiales y el entorno de un estudio deben aproximarse a la situación de la vida real que se está investigando.

La validez ecológica está parcialmente relacionada con el tema del experimento frente a la observación. Por lo general, en la ciencia, hay dos dominios de investigación: observacional (pasivo) y experimental (activo). El propósito de los diseños experimentales es probar la causalidad, para que pueda inferir que A causa B o que B causa A. Pero a veces, las restricciones éticas y/o metodológicas le impiden realizar un experimento (p. ej., ¿cómo influye el aislamiento en el funcionamiento cognitivo de un niño?). Entonces todavía puedes hacer investigación, pero no es causal, es correlacional. Solo puede concluir que A ocurre junto con B. Ambas técnicas tienen sus fortalezas y debilidades.

Relación con la validez interna

A primera vista, la validez interna y externa parecen contradecirse: para obtener un diseño experimental, debe controlar todas las variables que interfieren. Es por eso que a menudo realiza su experimento en un entorno de laboratorio. Mientras gana validez interna (excluyendo las variables que interfieren manteniéndolas constantes), pierde validez ecológica o externa porque establece un entorno de laboratorio artificial. Por otro lado, con la investigación observacional no puedes controlar las variables que interfieren (baja validez interna) pero puedes medir en el ambiente natural (ecológico), en el lugar donde normalmente ocurre el comportamiento. Sin embargo, al hacerlo, sacrifica la validez interna.

La aparente contradicción de la validez interna y la validez externa es, sin embargo, sólo superficial. La cuestión de si los resultados de un estudio en particular se generalizan a otras personas, lugares o tiempos surge solo cuando se sigue una estrategia de investigación inductivista. Si el objetivo de un estudio es probar deductivamente una teoría, uno sólo se preocupa por los factores que pueden socavar el rigor del estudio, es decir, las amenazas a la validez interna. En otras palabras, la relevancia de la validez externa e interna para un estudio de investigación depende de los objetivos del estudio. Además, la combinación de objetivos de investigación con preocupaciones de validez puede conducir al problema de la validez interna mutua, donde las teorías solo pueden explicar fenómenos en entornos de laboratorio artificiales pero no en el mundo real.

Validez diagnóstica

En psiquiatría existe un problema particular con la evaluación de la validez de las categorías diagnósticas mismas. En este contexto:

la validez de contenido puede referirse a síntomas y criterios diagnósticos;
la validez concurrente puede estar definida por varios correlatos o marcadores, y quizás también por la respuesta al tratamiento;
la validez predictiva puede referirse principalmente a la estabilidad diagnóstica en el tiempo;
la validez discriminante puede implicar la delimitación de otros trastornos.

Robins y Guze propusieron en 1970 lo que se convertiría en criterios formales influyentes para establecer la validez de los diagnósticos psiquiátricos. Enumeraron cinco criterios:

descripción clínica distinta (incluidos perfiles de síntomas, características demográficas y precipitantes típicos)
estudios de laboratorio (incluyendo pruebas psicológicas, radiología y hallazgos post mortem)
delimitación de otros trastornos (por medio de criterios de exclusión)
estudios de seguimiento que muestran un curso característico (incluyendo evidencia de estabilidad diagnóstica)
estudios familiares que muestran el agrupamiento familiar

Estos se incorporaron a los Criterios de Feighner y los Criterios de Diagnóstico de Investigación que desde entonces han formado la base de los sistemas de clasificación DSM e ICD.

Kendler en 1980 distinguió entre:

validadores de antecedentes (agregación familiar, personalidad premórbida y factores precipitantes)
validadores concurrentes (incluyendo pruebas psicológicas)
validadores predictivos (consistencia del diagnóstico a lo largo del tiempo, tasas de recaída y recuperación, y respuesta al tratamiento)

Nancy Andreasen (1995) enumeró varios validadores adicionales (genética molecular y biología molecular, neuroquímica, neuroanatomía, neurofisiología y neurociencia cognitiva) que son potencialmente capaces de vincular síntomas y diagnósticos a sus sustratos neurales.

Kendell y Jablinsky (2003) enfatizaron la importancia de distinguir entre validez y utilidad, y argumentaron que las categorías diagnósticas definidas por sus síndromes deben considerarse válidas solo si se ha demostrado que son entidades discretas con límites naturales que las separan de otros trastornos.

Kendler (2006) enfatizó que, para ser útil, un criterio de validación debe ser lo suficientemente sensible como para validar la mayoría de los síndromes que son verdaderos trastornos, y al mismo tiempo lo suficientemente específico como para invalidar la mayoría de los síndromes que no son verdaderos trastornos. Sobre esta base, argumenta que un criterio de Robins y Guze de "corre en la familia" es inadecuadamente específico porque la mayoría de los rasgos psicológicos y físicos humanos calificarían, por ejemplo, un síndrome arbitrario que comprende una mezcla de "altura de más de 6 pies, cabello rojo, y una nariz grande" se encontrará "en familias" y será "hereditario", pero esto no debe considerarse evidencia de que es un trastorno. Kendler ha sugerido además que los modelos genéticos "esencialistas" de los trastornos psiquiátricos,

En el Sistema de Tribunales Federales de los Estados Unidos, la validez y confiabilidad de la evidencia se evalúa utilizando el Estándar Daubert: ver Daubert v. Merrell Dow Pharmaceuticals. Perri y Lichtenwald (2010) brindan un punto de partida para una discusión sobre una amplia gama de temas de confiabilidad y validez en su análisis de una condena por homicidio culposo.