Grados de libertad (estadísticas)
En estadística, el número de grados de libertad es el número de valores en el cálculo final de una estadística que pueden variar libremente.
Las estimaciones de los parámetros estadísticos pueden basarse en diferentes cantidades de información o datos. El número de piezas independientes de información que entran en la estimación de un parámetro se denominan los grados de libertad. En general, los grados de libertad de una estimación de un parámetro son iguales al número de puntajes independientes que entran en la estimación menos el número de parámetros utilizados como pasos intermedios en la estimación del parámetro en sí. Por ejemplo, si la varianza se estima en una muestra aleatoria N{textstyle N} partituras independientes, entonces los grados de libertad son iguales al número de partituras independientes (N) menos el número de parámetros estimados como pasos intermedios (uno, a saber, el promedio de la muestra) y por lo tanto es igual a N− − 1{textstyle N-1}.
Matemáticamente, los grados de libertad son el número de dimensiones del dominio de un vector aleatorio, o esencialmente el número de dimensiones "libres". componentes (cuántos componentes deben conocerse antes de que el vector esté completamente determinado).
El término se utiliza con mayor frecuencia en el contexto de modelos lineales (regresión lineal, análisis de varianza), donde ciertos vectores aleatorios están obligados a permanecer en subespacios lineales y el número de grados de libertad es la dimensión del subespacio. Los grados de libertad también se asocian comúnmente con las longitudes al cuadrado (o "suma de cuadrados" de las coordenadas) de dichos vectores y los parámetros de chi-cuadrado y otras distribuciones que surgen en problemas de pruebas estadísticas asociados.
Si bien los libros de texto introductorios pueden introducir grados de libertad como parámetros de distribución o mediante pruebas de hipótesis, es la geometría subyacente la que define los grados de libertad y es fundamental para una comprensión adecuada del concepto.
Historia
Aunque el concepto básico de grados de libertad fue reconocido ya en 1821 en el trabajo del astrónomo y matemático alemán Carl Friedrich Gauss, su definición y uso modernos fueron elaborados por primera vez por el estadístico inglés William Sealy Gosset en su Biometrika de 1908. artículo "El error probable de una media", publicado bajo el seudónimo "Student". Si bien Gosset en realidad no utilizó el término "grados de libertad", explicó el concepto mientras desarrollaba lo que se conoció como distribución t de Student. El término en sí fue popularizado por el estadístico y biólogo inglés Ronald Fisher, comenzando con su trabajo de 1922 sobre chi cuadrados.
Notación
En las ecuaciones, el símbolo típico para los grados de libertad es ν (letra griega minúscula nu). En texto y tablas, la abreviatura "d.f." se utiliza comúnmente. R. A. Fisher usó n para simbolizar grados de libertad, pero el uso moderno normalmente reserva n para el tamaño de la muestra.
De vectores aleatorios
Geométricamente, los grados de libertad se pueden interpretar como la dimensión de ciertos subespacios vectoriales. Como punto de partida, supongamos que tenemos una muestra de observaciones independientes distribuidas normalmente,
- X1,... ... ,Xn.{displaystyle X_{1},dotsX_{n}
Esto se puede representar como un vector aleatorio ndimensional:
- ()X1⋮ ⋮ Xn).{displaystyle {begin{pmatrix}X_{1}\vdots {fn}}
Dado que este vector aleatorio puede encontrarse en cualquier lugar del espacio n-dimensional, tiene n grados de libertad.
Ahora, vamos. X̄ ̄ {displaystyle {bar {X}}} ser la muestra media. El vector aleatorio se puede descomponer como la suma de la muestra significa más un vector de residuos:
- ()X1⋮ ⋮ Xn)=X̄ ̄ ()1⋮ ⋮ 1)+()X1− − X̄ ̄ ⋮ ⋮ Xn− − X̄ ̄ ).{displaystyle {begin{pmatrix}X_{1}\vdots \X_{n}end{pmatrix}={bar {X}{begin{pmatrix}1\\vdots \1end{pmatrix}+{begin{pmatrix}X_{1}-{bar {X}\\\\vdots \X_{n}end {pmatrix}}}
El primer vector en el lado derecho se limita a ser un múltiples del vector de 1's, y la única cantidad libre es X̄ ̄ {displaystyle {bar {X}}}. Por lo tanto, tiene un grado de libertad.
El segundo vector se ve limitado por la relación . . i=1n()Xi− − X̄ ̄ )=0{textstyle sum ¿Qué?. La primera n − 1 componentes de este vector puede ser cualquier cosa. Sin embargo, una vez que sepas el primero n − 1 componentes, la limitación le indica el valor del nt componente. Por lo tanto, este vector tiene n - 1 grados de libertad.
Matemáticamente, el primer vector es la proyección oblicua del vector de datos sobre el subespacio abarcado por el vector de unos. El 1 grado de libertad es la dimensión de este subespacio. El segundo vector residual es la proyección de mínimos cuadrados sobre el complemento ortogonal (n − 1)-dimensional de este subespacio, y tiene n − 1 grados de libertad.
En las aplicaciones de pruebas estadísticas, a menudo uno no está directamente interesado en los vectores componentes, sino en sus longitudes al cuadrado. En el ejemplo anterior, la suma de cuadrados residual es
- . . i=1n()Xi− − X̄ ̄ )2=.X1− − X̄ ̄ ⋮ ⋮ Xn− − X̄ ̄ .2.{displaystyle sum _{i=1}{n}(X_{i}-{bar {X})^{2}={begin{Vmatrix}X_{1}-{bar} {X}\\\vdots \X_{n}-{bar {X}end{Vmatrix}} {2}}
Si los puntos de datos Xi{displaystyle X_{i} se distribuyen normalmente con media 0 y varianza σ σ 2{displaystyle sigma ^{2}, entonces la suma residual de cuadrados tiene una distribución escalonada de chi-squared (escalada por el factor σ σ 2{displaystyle sigma ^{2}Con n - 1 grados de libertad. Los grados de la libertad, aquí un parámetro de la distribución, todavía se puede interpretar como la dimensión de un subespacio vectorial subyacente.
Del mismo modo, el estadístico de la prueba t de una muestra,
- n()X̄ ̄ − − μ μ 0). . i=1n()Xi− − X̄ ̄ )2/()n− − 1){displaystyle {frac {sqrt {} {bar {X}-mu _{0}}}{sqrt {sum limits ¿Por qué?
sigue la distribución t de un estudiante con n − 1 grados de libertad cuando el hipotetizado significa μ μ 0{displaystyle mu _{0}} es correcto. De nuevo, los grados de libertad surgen del vector residual del denominador.
En modelos de ecuaciones estructurales
Cuando se presentan los resultados de los modelos de ecuaciones estructurales (SEM), generalmente incluyen uno o más índices de ajuste general del modelo, el más común de los cuales es un χ2 estadística. Esto forma la base de otros índices que se informan comúnmente. Aunque son estas otras estadísticas las que se interpretan con mayor frecuencia, los grados de libertad del χ2 son esenciales para comprender el ajuste del modelo y su la naturaleza del modelo mismo.
Los grados de libertad en SEM se calculan como una diferencia entre la cantidad de piezas únicas de información que se utilizan como entrada en el análisis, a veces denominadas conocidas, y la cantidad de parámetros que se estiman de forma única, a veces denominadas incógnitas. Por ejemplo, en un análisis factorial confirmatorio de un factor con 4 ítems, hay 10 datos conocidos (las seis covarianzas únicas entre los cuatro ítems y las varianzas de los cuatro ítems) y 8 incógnitas (4 cargas factoriales y 4 varianzas de error) para 2 grados de libertad. Los grados de libertad son importantes para comprender el ajuste del modelo, aunque sólo sea por esa razón: en igualdad de condiciones, cuantos menos grados de libertad, mejores índices como χ2 será.
Se ha demostrado que los lectores de artículos que contienen SEM pueden utilizar grados de libertad para determinar si los autores de esos artículos en realidad están informando las estadísticas correctas de ajuste del modelo. En las ciencias organizacionales, por ejemplo, casi la mitad de los artículos publicados en las principales revistas informan grados de libertad que son inconsistentes con los modelos descritos en esos artículos, lo que deja al lector preguntándose qué modelos se probaron realmente.
De residuos
Una forma común de pensar en los grados de libertad es como el número de piezas de información independientes disponibles para estimar otra pieza de información. Más concretamente, el número de grados de libertad es el número de observaciones independientes en una muestra de datos que están disponibles para estimar un parámetro de la población de la que se extrae esa muestra. Por ejemplo, si tenemos dos observaciones, al calcular la media tenemos dos observaciones independientes; sin embargo, al calcular la varianza, solo tenemos una observación independiente, ya que las dos observaciones están igualmente distantes de la media muestral.
Al ajustar modelos estadísticos a los datos, los vectores de residuos están obligados a estar en un espacio de dimensión más pequeña que el número de componentes del vector. Esa dimensión más pequeña es el número de grados de libertad para el error, también llamados grados de libertad residuales.
Ejemplo
Quizás el ejemplo más simple sea este. Suponer
- X1,... ... ,Xn{displaystyle X_{1},dots X_{n}
son variables aleatorias, cada una con un valor esperado μ, y dejemos que
- X̄ ̄ n=X1+⋯ ⋯ +Xnn{displaystyle {fnK} {fn}={frac} {X_{1}+cdots - Sí.
sea la "media de la muestra.y#34; Entonces las cantidades
- Xi− − X̄ ̄ n{displaystyle X_{i}-{overline {X}_{n}
son residuos que pueden considerarse estimaciones de los errores Xi − μ. La suma de los residuos (a diferencia de la suma de los errores) es necesariamente 0. Si se conocen los valores de cualquier n − 1 de los residuos, se puede encontrar el último. Eso significa que están obligados a estar en un espacio de dimensión n − 1. Se dice que hay n − 1 grados de libertad para los errores.
Un ejemplo que es ligeramente menos simple es el de la estimación de mínimos cuadrados de a y b en el modelo.
- Yi=a+bxi+ei para i=1,... ... ,n{displaystyle Y_{i}=a+bx_{i}+e_{i}{text{ for }i=1,dotsn}
Donde xi se da, pero ei y por consiguiente Yi son al azar. Vamos. a^ ^ {displaystyle {widehat {a}} y b^ ^ {displaystyle {widehat {b}} las estimaciones menos importantes de a y b. Luego los residuos
- e^ ^ i=Sí.i− − ()a^ ^ +b^ ^ xi){displaystyle {widehat {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {fnK} {f} {f}} {f}}} {f} {f}} {f}}} {f}} {f}} {f}}} {f}}}}}} {\f}}}}}}}}\\\f}}}}}}\\\\\\f}}}}}}}}}}}}}\\\\\\\\f}}}}}}}}}}}}}}}}}}\\\\\\\\}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}\\\\\\\\\\\\\\\\\\ {a}+{widehat {b}x_{i}}}
están obligados a estar dentro del espacio definido por las dos ecuaciones
- e^ ^ 1+⋯ ⋯ +e^ ^ n=0,{displaystyle {widehat {e}_{1}+cdots +{widehat {e}_{n}=0,}
- x1e^ ^ 1+⋯ ⋯ +xne^ ^ n=0.{displaystyle x_{1}{widehat {e}_{1}+cdots +x_{n}{widehat {e}_{n}=0}
Se dice que hay n − 2 grados de libertad para el error.
Notacionalmente, la letra mayúscula Y se utiliza para especificar el modelo, mientras que la y minúscula en la definición de los residuos; esto se debe a que las primeras son variables aleatorias hipotéticas y las segundas son datos reales.
Podemos generalizar esto a una regresión múltiple que incluya parámetros y covariables p (por ejemplo, p − 1 predictores y una media (=intersección en la regresión)), en cuyo caso el costo en grados de libertad del ajuste es p, dejando n - p grados de libertad para los errores
En modelos lineales
La demostración anterior de las distribuciones t y chi-cuadrado para problemas de una muestra es el ejemplo más simple en el que surgen grados de libertad. Sin embargo, descomposiciones vectoriales y geométricas similares subyacen a gran parte de la teoría de los modelos lineales, incluida la regresión lineal y el análisis de varianza. Aquí se presenta un ejemplo explícito basado en la comparación de tres medias; Christensen (2002) analiza con más detalle la geometría de los modelos lineales.
Supongamos que se hacen observaciones independientes para tres poblaciones, X1,... ... ,Xn{displaystyle X_{1},ldots X_{n}, Y1,... ... ,Yn{displaystyle Y_{1},ldots Y... y Z1,... ... ,Zn{displaystyle Z_{1},ldots Z_{n}. La restricción a tres grupos y tamaños de muestra iguales simplifica la notación, pero las ideas se generalizan fácilmente.
Las observaciones se pueden descomponer como
- Xi=M̄ ̄ +()X̄ ̄ − − M̄ ̄ )+()Xi− − X̄ ̄ )Yi=M̄ ̄ +()Ȳ ̄ − − M̄ ̄ )+()Yi− − Ȳ ̄ )Zi=M̄ ̄ +()Z̄ ̄ − − M̄ ̄ )+()Zi− − Z̄ ̄ ){displaystyle {begin{aligned}X_{i} {M}+({bar {X}-{bar {M})+(X_{i}-{bar {X})\Y_{i} {i} {i}={bar} {M}+({bar {Y}-{bar {M})+(Y_{i}-{bar {Y})\Z_{i} {M}+({bar {Z}}-{bar {M})+(Z_{i}-{bar {Z})end{aligned}}}}}
Donde X̄ ̄ ,Ȳ ̄ ,Z̄ ̄ {displaystyle {bar {X}}, {bar}} {bar}}} {b}} {b}} {b}} {b}}}} {b}}}} {b}}}}} {b}}}} {b}}}} {b}}} son los medios de las muestras individuales, y M̄ ̄ =()X̄ ̄ +Ȳ ̄ +Z̄ ̄ )/3{displaystyle {bar {fn}= {fnMicrosoft} {fnMicrosoft}}= {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {fn}} {fnMicrosoft}} {fnMicrosoft} {f}}}}}}f}} {b}f}f}}}fnfnb}fnfnb}}fnb}fnb}b}fnb}fnb}b}b}}b}b}}}}}}b}b9b9b9b9b}b}b}}b}b9b9fnb}b}b}b9b9b9b9b9b9b9b9b}}}b}}} {X}+{bar} {Y}+{bar {Z}})/3} es la media de los 3n observaciones. En la notación vectorial esta descomposición se puede escribir como
- ()X1⋮ ⋮ XnY1⋮ ⋮ YnZ1⋮ ⋮ Zn)=M̄ ̄ ()1⋮ ⋮ 11⋮ ⋮ 11⋮ ⋮ 1)+()X̄ ̄ − − M̄ ̄ ⋮ ⋮ X̄ ̄ − − M̄ ̄ Ȳ ̄ − − M̄ ̄ ⋮ ⋮ Ȳ ̄ − − M̄ ̄ Z̄ ̄ − − M̄ ̄ ⋮ ⋮ Z̄ ̄ − − M̄ ̄ )+()X1− − X̄ ̄ ⋮ ⋮ Xn− − X̄ ̄ Y1− − Ȳ ̄ ⋮ ⋮ Yn− − Ȳ ̄ Z1− − Z̄ ̄ ⋮ ⋮ Zn− − Z̄ ̄ ).{displaystyle {begin{pmatrix}X_{1}\vdots \X_{n}\\\\cdots \Y_{n}\Z_{1}\vdots {fn}end{pmatrix}={bar {M}{begin{pmatrix}1\\vdots \111\vdots \1\vdots \1end{pmatrix}+{begin{pmatrix}{bar {X}-{bar {M}\\\vdots\\\cH00}- {fnMicrosoft Sans Serif} {M}\\\\\\\\\\cH00}\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ {Y}-{bar} {M}\\\\vdots\\\\\\cH009\\\\cH009\\\cH009\\\cH009\\\\\\\\cH009\cH009\\\\\\\\\\\\\\cH009\\\\\cH001cH001\cH001\\cH009\\\\\cH001\\\\\\\\\\cH009\\\\\cH001cH001\cH001\cH001\\\\cH001\cH009\\cH {Y}-{bar} {M}\\\\\\\\fn}- {fn}\\\\\\\\fn}- {fn}- {fn}}\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ {M}\\\vdots\ {Z}-{bar {M}end{pmatrix}}+{begin{pmatrix}X_{1}-{bar} {X}\\\vdots \X_{n}-{bar {X}\\\fnK}- {fnMicrosoft}\\fnK}\\\\\cHFF}\\\\cH}\\\\\\\\\\\\\\\\\cH3}}\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ {Y}\\\fnMicrosoft Sans Serif} \Y_{n}-{bar {Y}\\\\vdots\\\\cn}- {bar {Z}end{pmatrix}}
El vector de observación, en la mano izquierda, tiene 3n grados de libertad. En el lado derecho, el primer vector tiene un grado de libertad (o dimensión) para la media general. El segundo vector depende de tres variables aleatorias, X̄ ̄ − − M̄ ̄ {displaystyle {bar}-{bar} {M}}, Ȳ ̄ − − M̄ ̄ {displaystyle {bar}-{bar} {M}} y Z̄ ̄ − − M̄ ̄ {displaystyle {fnMicrosoft}-{fnMicrosoft Sans Serif} {M}}. Sin embargo, estos deben sumarse a 0 y así están limitados; el vector, por lo tanto, debe estar en un subespacio de 2 dimensiones, y tiene 2 grados de libertad. Los restantes 3n − 3 grados de libertad están en el vector residual n − 1 grados de libertad dentro de cada una de las poblaciones).
En análisis de varianza (ANOVA)
En los problemas de pruebas estadísticas, normalmente uno no está interesado en los vectores componentes en sí, sino en sus longitudes al cuadrado, o Suma de Cuadrados. Los grados de libertad asociados con una suma de cuadrados son los grados de libertad de los vectores componentes correspondientes.
El ejemplo anterior de tres poblaciones es un ejemplo de análisis de varianza unidireccional. La suma de cuadrados del modelo o tratamiento es la longitud al cuadrado del segundo vector,
- SST=n()X̄ ̄ − − M̄ ̄ )2+n()Ȳ ̄ − − M̄ ̄ )2+n()Z̄ ̄ − − M̄ ̄ )2{displaystyle {text{SST}=n({bar {X}-{bar {M})^{2}+n({bar {Y}}-{bar {M}})^{2}+n({bar {Z}-{bar {b}}}}} {}}}}} {b}}}}} {b}}}}}} {b}}}}} {b}} {b}}}}}} {b}}}}}} {b}}}}} {b}}}}} {b} {b}} {b}}}}}}}} {b}}}}}}} {b} {b}}} {b}}}}}}}}}}}}} {b}}}}}}}}}} {b}}}}}}}}}}}}}}}}}}}}} {b}}}} {b}}}}}}
con 2 grados de libertad. La suma de cuadrados residual o error es
- SSE=. . i=1n()Xi− − X̄ ̄ )2+. . i=1n()Yi− − Ȳ ̄ )2+. . i=1n()Zi− − Z̄ ̄ )2{displaystyle {text{SSE}=sum ¿Por qué? ¿Qué? {Y}} {2}+sum} ¿Qué?
con 3(n−1) grados de libertad. Por supuesto, los libros de introducción a ANOVA suelen indicar fórmulas sin mostrar los vectores, pero es esta geometría subyacente la que da lugar a las fórmulas SS y muestra cómo determinar sin ambigüedades los grados de libertad en cualquier situación dada.
Bajo la hipótesis nula de que no hay diferencias entre las medias poblacionales (y suponiendo que se cumplan los supuestos de regularidad estándar de ANOVA), las sumas de cuadrados tienen distribuciones de chi-cuadrado escaladas, con los grados de libertad correspondientes. El estadístico de la prueba F es la relación, después de escalar según los grados de libertad. Si no hay diferencia entre las poblaciones, significa que esta relación sigue una distribución F con 2 y 3n − 3 grados de libertad.
En algunos entornos complicados, como los diseños de parcelas divididas desequilibrados, las sumas de cuadrados ya no tienen distribuciones de chi-cuadrado escaladas. La comparación de sumas de cuadrados con grados de libertad ya no tiene sentido y el software puede informar ciertos "grados de libertad" fraccionarios. en estos casos. Estos números no tienen una interpretación genuina de grados de libertad, sino que simplemente proporcionan una distribución chi-cuadrado aproximada para la suma de cuadrados correspondiente. Los detalles de tales aproximaciones están fuera del alcance de esta página.
En distribuciones de probabilidad
Varias distribuciones estadísticamente encontradas (Student's t, chi-squared, F) tienen parámetros que se denominan comúnmente como grados de libertad. Esta terminología simplemente refleja que en muchas aplicaciones donde se producen estas distribuciones, el parámetro corresponde a los grados de libertad de un vector aleatorio subyacente, como en el ejemplo anterior de ANOVA. Otro ejemplo simple es: Xi;i=1,... ... ,n{displaystyle X_{i};i=1,ldotsn} son normales independientes ()μ μ ,σ σ 2){displaystyle (musigma ^{2} variables aleatorias, la estadística
- . . i=1n()Xi− − X̄ ̄ )2σ σ 2{displaystyle {frac {fnMicroc}sum ¿Por qué?
sigue una distribución de Chi-squared con n - 1 grados de libertad. Aquí, los grados de libertad surgen de la suma residual de cuadrados en el numerador, y a su vez el n − 1 grados de libertad del vector residual subyacente {}Xi− − X̄ ̄ }{displaystyle {X_{i}-{bar {X}}.
En la aplicación de estas distribuciones a modelos lineales, los parámetros de grados de libertad solo pueden tomar valores enteros. Las familias de distribuciones subyacentes permiten valores fraccionarios para los parámetros de grados de libertad, que pueden surgir en usos más sofisticados. Un conjunto de ejemplos son los problemas en los que se utilizan aproximaciones de chi-cuadrado basadas en grados de libertad efectivos. En otras aplicaciones, como el modelado de datos de cola pesada, se puede utilizar una distribución t o F como modelo empírico. En estos casos, no existe una interpretación particular de los grados de libertad de los parámetros de distribución, aunque la terminología pueda seguir utilizándose.
En regresión no estándar
Muchos métodos de regresión no estándar, incluidos mínimos cuadrados regularizados (por ejemplo, regresión de crestas), suavizadores lineales, splines de suavizado y regresión semiparamétrica, no se basan en proyecciones de mínimos cuadrados ordinarios, sino más bien en proyecciones regularizadas (generalizadas y/o penalizadas). ) mínimos cuadrados, por lo que los grados de libertad definidos en términos de dimensionalidad generalmente no son útiles para estos procedimientos. Sin embargo, estos procedimientos siguen siendo lineales en las observaciones y los valores ajustados de la regresión se pueden expresar en la forma
- Sí.^ ^ =HSí.,{displaystyle {hat {y}=Hy,}
Donde Sí.^ ^ {displaystyle {hat {y}}} es el vector de valores ajustados en cada uno de los valores covariados originales del modelo ajustado, Sí. es el vector original de respuestas, y H es la matriz de sombrero o, más generalmente, matriz más suave.
Para la inferencia estadística, todavía se pueden formar sumas de cuadras: la suma modelo de cuadras es . . HSí.. . 2{displaystyle "Perfecto"; la suma residual de las plazas es . . Sí.− − HSí.. . 2{displaystyle "Perfecto". Sin embargo, porque H no corresponde a un ajuste normal de los mínimos cuadrados (es decir, no es una proyección ortogonal), estas sumas de cuadras ya no tienen (escaladas, no centrales) distribuciones de chi-squared, y grados de la libertad definidos dimensionalmente no son útiles.
Los grados de libertad efectivos del ajuste se pueden definir de varias maneras para implementar pruebas de bondad de ajuste, validación cruzada y otros procedimientos de inferencia estadística. Aquí se puede distinguir entre grados de libertad efectivos de regresión y grados de libertad efectivos residuales.
Grados de libertad efectivos de regresión
Para los grados de libertad efectivos de regresión, las definiciones apropiadas pueden incluir la traza de la matriz hat, tr(H), la traza de la forma cuadrática de la matriz hat, tr( H'H), la forma tr(2H – H H'), o la aproximación de Satterthwaite , tr(H'H)2/tr(H'HH'H). En el caso de la regresión lineal, la matriz hat H es X(X 'X)−1X ', y todas estas definiciones se reducen a los grados de libertad habituales. Darse cuenta de
- tr ()H)=. . ihii=. . i∂ ∂ Sí.^ ^ i∂ ∂ Sí.i,{displaystyle operatorname {tr} (H)=sum ¿Qué? ¿Qué? {fnK} {f}} {fnMicrosoft}} {fnMicrosoft}} {f}}} {f}} {fnMicrosoft}}} {f}}}} {fnMicrosoft}}} {f}}}}} {f}}}}}}}} {f}}}}}}}}} { Y...
los grados de libertad de regresión (no residuales) en los modelos lineales son "la suma de las sensibilidades de los valores ajustados con respecto a los valores de respuesta observados", es decir, la suma de las puntuaciones de apalancamiento.
Una manera de ayudar a conceptualizar esto es considerar una simple matriz de lijado como un borrón gaisiano, utilizado para mitigar el ruido de los datos. En contraste con un ajuste lineal o polinomio simple, computar los grados efectivos de la libertad de la función de licuado no es directo. En estos casos, es importante estimar los Grados de Libertad permitidos por los H{displaystyle H. matriz para que los grados residuales de la libertad puedan utilizarse para estimar pruebas estadísticas tales como χ χ 2{displaystyle chi ^{2}.
Grados de libertad efectivos residuales
Existen definiciones correspondientes de grados de libertad efectivos residuales (redf), con H sustituido por I − H. Por ejemplo, si el objetivo es estimar la varianza de error, el redf se definiría como tr(((()I − H)I − H)), y la estimación imparcial es (con r^ ^ =Sí.− − HSí.{displaystyle {hat {}=y- Sí.),
- σ σ ^ ^ 2=. . r^ ^ . . 2tr ()()I− − H).()I− − H)),{displaystyle {hat {sigma} {fnMicroc {fnh}fnh} {fnK} {fnK} {fnMicrosoft} {fnMicrosoft}}} {fnMicrosoft Sans Serif}
o:
- σ σ ^ ^ 2=. . r^ ^ . . 2n− − tr ()2H− − HH.)=. . r^ ^ . . 2n− − 2tr ()H)+tr ()HH.){displaystyle {hat {sigma} }{2}={frac {fncipado {hat} {fnh} {fn-fnh}}={frac {fnfnh00} {fnh00} {fn-fn-fnh}}= {fnfnh00fnfnh} {fnHHHHHHHHHHHHHHHHHHHHHH}}}}}}}}={f}f}f}fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn-fn {r}fn} {n-2fn}operatorname {tr}(H)+operatorname {tr}}}}}
- σ σ ^ ^ 2. . . . r^ ^ . . 2n− − 1.25tr ()H)+0.5.{displaystyle {hat {sigma} }{2}approx {fnMicroc {fnhfnh00fnMicroc {fnhfnh} {r}fn__________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
La última aproximación anterior reduce el coste computacional de O()n2Sólo a O()n). En general, el numerador sería la función objetiva que se minimiza; por ejemplo, si la matriz del sombrero incluye una matriz de covariancia de observación, la . . r^ ^ . . 2{displaystyle {fn}fnK} {2} se convierte en r^ ^ .. . − − 1r^ ^ {displaystyle {hat {fn}} Sigma..
Generalidades
Tenga en cuenta que, a diferencia del caso original, se permiten grados de libertad no enteros, aunque el valor generalmente debe estar restringido entre 0 y n.
Considere, como ejemplo, el vecino más suave k, que es el promedio de los valores medidos k más cercanos al punto dado. Luego, en cada uno de los n puntos medidos, el peso del valor original en la combinación lineal que constituye el valor predicho es solo 1/k. Por tanto, la traza de la matriz hat es n/k. Por lo tanto, el suave cuesta n/k grados de libertad efectivos.
Como otro ejemplo, considere la existencia de observaciones casi duplicadas. La aplicación ingenua de la fórmula clásica, n − p, conduciría a una sobreestimación del grado de libertad de los residuos, como si cada observación fuera independiente. Sin embargo, de manera más realista, la matriz de sombrero H = X(X ' Σ −1 X)−1X ' Σ−1 implicaría una matriz de covarianza de observación Σ que indica la correlación distinta de cero entre las observaciones.
La formulación más general del grado de libertad efectivo daría como resultado una estimación más realista para, por ejemplo, la varianza del error σ2, que a su vez escala los parámetros desconocidos' a posteriori desviación estándar; el grado de libertad también afectará el factor de expansión necesario para producir una elipse de error para un nivel de confianza determinado.
Otras formulaciones
Conceptos similares son los grados de libertad equivalentes en regresión no paramétrica, el grado de libertad de la señal en estudios atmosféricos y el grado no entero de libertad en la geodesia.
La suma residual de los cuartos . . Sí.− − HSí.. . 2{displaystyle "Perfecto" tiene una distribución generalizada de chi-squared, y la teoría asociada a esta distribución proporciona una ruta alternativa a las respuestas proporcionadas anteriormente.