Sesgo (estadísticas)
El sesgo estadístico es una tendencia sistemática que provoca diferencias entre los resultados y los hechos. El sesgo existe en los números del proceso de análisis de datos, incluida la fuente de los datos, el estimador elegido y las formas en que se analizaron los datos. El sesgo puede tener un impacto grave en los resultados, por ejemplo, para investigar los hábitos de compra de las personas. Si el tamaño de la muestra no es lo suficientemente grande, es posible que los resultados no sean representativos de los hábitos de compra de todas las personas. Es decir, puede haber discrepancias entre los resultados de la encuesta y la realidad. Por lo tanto, comprender la fuente del sesgo estadístico puede ayudar a evaluar si los resultados observados están cerca de la realidad.
El sesgo se puede diferenciar de otros errores como la precisión (falla/inadecuación del instrumento), falta de datos o errores en la transcripción (errores tipográficos). El sesgo implica que la selección de datos puede haber sido sesgada por los criterios de recopilación.
El sesgo no excluye la existencia de otros errores. Uno puede tener una muestra mal diseñada, un dispositivo de medición inexacto y errores tipográficos en el registro de datos simultáneamente.
También es útil reconocer que el término "error" se refiere específicamente al resultado más que al proceso (errores de rechazo o aceptación de la hipótesis que se está probando). Se recomienda el uso de defecto o error para diferenciar los errores de procedimiento de estos términos basados en resultados específicamente definidos.
Sesgo de un estimador
El sesgo estadístico es una característica de una técnica estadística o de sus resultados, por lo que el valor esperado de los resultados difiere del verdadero parámetro cuantitativo subyacente que se estima. El sesgo de un estimador de un parámetro no debe confundirse con su grado de precisión, ya que el grado de precisión es una medida del error de muestreo. El sesgo se define como sigue: T{displaystyle T} ser una estadística utilizada para estimar un parámetro Silencio Silencio {displaystyle theta }, y dejar E ()T){displaystyle operatorname {E} (T)} denota el valor esperado T{displaystyle T}. Entonces,
- parciales ()T,Silencio Silencio )=parciales ()T)=E ()T)− − Silencio Silencio {displaystyle operatorname {bias} (T,theta)=operatorname {bias}(T)=operatorname {E} (T)-theta }
se llama el sesgo de la estadística T{displaystyle T} (con respecto a Silencio Silencio {displaystyle theta }). Si parciales ()T,Silencio Silencio )=0{displaystyle operatorname {bias} (T,theta)=0}, entonces T{displaystyle T} se dice que es un unbiased estimator de Silencio Silencio {displaystyle theta }; de lo contrario, se dice que es estimación parcial de Silencio Silencio {displaystyle theta }.
El sesgo de una estadística T{displaystyle T} es siempre relativo al parámetro Silencio Silencio {displaystyle theta } se utiliza para estimar, pero el parámetro Silencio Silencio {displaystyle theta } a menudo se omite cuando está claro desde el contexto lo que se está calculando.
Tipos
El sesgo estadístico proviene de todas las etapas del análisis de datos. Las siguientes fuentes de sesgo se enumerarán en cada etapa por separado.
Selección de datos
El sesgo de selección implica que es más probable que los individuos sean seleccionados para el estudio que otros, lo que sesga la muestra. Esto también puede denominarse efecto de selección, sesgo de muestreo y sesgo berksoniano.
- El sesgo del espectro surge de la evaluación de las pruebas diagnósticas en muestras de pacientes sesgadas, lo que conduce a una sobreestimación de la sensibilidad y especificidad de la prueba. Por ejemplo, una alta prevalencia de enfermedades en una población de estudio aumenta los valores predictivos positivos, lo que causará un sesgo entre los valores de predicción y los reales.
- El sesgo de selección de observadores se produce cuando las pruebas presentadas han sido prefiltradas por observadores, que es el denominado principio antrópico. Los datos recogidos no sólo se filtran por el diseño del experimento, sino también por la condición necesaria de que debe haber alguien haciendo un estudio. Un ejemplo es el impacto de la Tierra en el pasado. El evento de impacto puede causar la extinción de animales inteligentes, o no había animales inteligentes en ese momento. Por lo tanto, algunos eventos de impacto no se han observado, pero pueden haber ocurrido en el pasado.
- Sesgo voluntario ocurre cuando los voluntarios tienen características intrínsecamente diferentes de la población objetivo del estudio. La investigación ha demostrado que los voluntarios tienden a provenir de familias con mayor estatus socioeconómico. Además, otro estudio muestra que las mujeres son más probables para ser voluntarias para estudios que los hombres.
- La financiación del sesgo puede llevar a la selección de resultados, muestras de prueba o procedimientos de prueba que favorezcan al patrocinador financiero de un estudio.
- El sesgo de atracción surge debido a la pérdida de participantes, por ejemplo, la pérdida de seguimiento durante un estudio.
- Recordar sesgo surge debido a diferencias en la exactitud o integridad de los recuerdos de los participantes de eventos pasados; por ejemplo, los pacientes no pueden recordar cuántos cigarrillos fumaban la semana pasada exactamente, lo que llevó a sobreestimación o subestimación.
Prueba de hipótesis
Los errores de tipo I y tipo II en las pruebas de hipótesis estadísticas conducen a resultados erróneos. El error tipo I ocurre cuando la hipótesis nula es correcta pero se rechaza. Por ejemplo, suponga que la hipótesis nula es que si el límite de velocidad de conducción promedio oscila entre 75 y 85 km/h, no se considera exceso de velocidad. Por otro lado, si la velocidad media no está en ese rango, se considera exceso de velocidad. Si alguien recibe una multa con una velocidad de conducción promedio de 7 km/h, el tomador de decisiones ha cometido un error de Tipo I. En otras palabras, la velocidad promedio de conducción cumple con la hipótesis nula pero se rechaza. Por el contrario, el error tipo II ocurre cuando la hipótesis nula no es correcta pero se acepta.
Selección de estimador
El sesgo de un estimador es la diferencia entre el valor esperado de un estimador y el valor real del parámetro que se estima. Aunque teóricamente es preferible un estimador insesgado a uno sesgado, en la práctica se utilizan con frecuencia estimadores sesgados con pequeños sesgos. Un estimador sesgado puede ser más útil por varias razones. Primero, un estimador insesgado puede no existir sin más suposiciones. En segundo lugar, a veces es difícil calcular un estimador insesgado. En tercer lugar, un estimador sesgado puede tener un valor más bajo del error cuadrático medio.
- Un estimador parcial es mejor que cualquier calculador imparcial que surja de la distribución Poisson. El valor de un estimador parcial es siempre positivo y el error medio cuadrado de él es más pequeño que el imparcial, lo que hace que el estimador parcial sea más preciso.
- El sesgo omitido-variable es el sesgo que aparece en estimaciones de parámetros en el análisis de regresión cuando la especificación asumida omite una variable independiente que debe estar en el modelo.
Métodos de análisis
- El sesgo de detección ocurre cuando es más probable que se observe un fenómeno para un determinado conjunto de temas de estudio. Por ejemplo, la sindemia de obesidad y diabetes puede significar que los médicos son más propensos a buscar diabetes en pacientes obesos que en pacientes más delgados, lo que conduce a una inflación en la diabetes entre pacientes obesos debido a esfuerzos de detección asaltados.
- En la medición educativa, el sesgo se define como "errores sistemáticos en el contenido de pruebas, administración de pruebas y/o procedimientos de puntuación que pueden hacer que algunos tomadores de pruebas obtengan puntajes más bajos o superiores de lo que su verdadera habilidad merecería". La fuente del sesgo es irrelevante para el rasgo que el test pretende medir.
- Sesgo de observador surge cuando el investigador influye subconscientemente en el experimento debido al sesgo cognitivo donde el juicio puede alterar cómo se lleva a cabo un experimento / cómo se registran los resultados.
Interpretación
El sesgo de informe implica un sesgo en la disponibilidad de datos, de modo que es más probable que se informen las observaciones de cierto tipo.
Contenido relacionado
Función de densidad de probabilidad
Correlación
Probabilidades del pozo