Residuos estudentizados
En estadística, un residuo estudentizado es la relación adimensional resultante de la división de un residual por una estimación de su desviación estándar, ambas expresadas en las mismas unidades. Es una forma de estadístico t de Student, en el que la estimación del error varía entre puntos.
Esta es una técnica importante en la detección de valores atípicos. Es uno de varios que llevan el nombre de William Sealey Gosset, quien escribió bajo el seudónimo de "Estudiante" (por ejemplo, distribución de estudiantes). Dividir una estadística por una desviación estándar de muestra se denomina estudiar, en analogía con estandarizar y normalizar.
Motivación
La razón clave para estudiar es que, en el análisis de regresión de una distribución multivariada, las varianzas de los residuales en diferentes valores de las variables de entrada pueden diferir, incluso si las varianzas de los errores en estos diferentes valores de variables de entrada son iguales. La cuestión es la diferencia entre errores y residuos en estadística, particularmente el comportamiento de los residuos en las regresiones.
Considere el modelo de regresión lineal simple
Dada una muestra aleatoria (Xi, Yi), i = 1,..., n, cada par (Xi, Yi) satisface
Donde errores , son independientes y todos tienen la misma varianza . El residuales no son los errores verdaderos, pero Estimaciones, basado en los datos observables. Cuando el método de los mínimos cuadrados se utiliza para estimar y , entonces los residuos a diferencia de los errores , no puede ser independiente ya que satisfacen las dos limitaciones
y
(Aquí) εi es ierror, y es i.)
Los residuos, a diferencia de los errores, no tienen todos la misma varianza: la varianza disminuye a medida que el valor x correspondiente se aleja del promedio x -valor. Esta no es una característica de los datos en sí, sino de los valores de regresión que se ajustan mejor en los extremos del dominio. También se refleja en las funciones de influencia de varios puntos de datos sobre los coeficientes de regresión: los puntos finales tienen más influencia. Esto también se puede ver porque los residuos en los puntos finales dependen en gran medida de la pendiente de una línea ajustada, mientras que los residuos en el medio son relativamente insensibles a la pendiente. El hecho de que las varianzas de los residuos difieran, aunque las varianzas de los errores verdaderos sean todas iguales entre sí, es la razón principal por la necesidad de estudentización.
No se trata simplemente de que se desconozcan los parámetros de la población (media y desviación estándar), sino que las regresiones producen diferentes distribuciones residuales con datos diferentes. puntos, a diferencia de los estimadores puntuales de distribuciones univariadas, que comparten una distribución común para los residuos.
Fondo
Para este modelo simple, la matriz de diseño es
y la matriz hat H es la matriz de la proyección ortogonal sobre el espacio columna de la matriz de diseño:
El apalancamiento hii es la iésima entrada diagonal en la matriz hat. La varianza del iésimo residuo es
En caso de que la matriz de diseño X tenga solo dos columnas (como en el ejemplo anterior), esto es igual a
En el caso de una media aritmética, la matriz de diseño X tiene sólo una columna (un vector de unos), y esto es simplemente:
Cálculo
Dadas las definiciones anteriores, el residuo estudentizado es entonces
Donde hii es la ventaja, donde es una estimación apropiada σ (véase infra).
En el caso de una media, esto es igual a:
Estudiantización interna y externa
La estimación habitual de σ2 es el residuo internamente estudentizado
donde m es el número de parámetros en el modelo (2 en nuestro ejemplo).
Pero si se sospecha que el i caso es improbablemente grande, entonces tampoco estaría distribuido normalmente. Por lo tanto, es prudente excluir la i ésima observación del proceso de estimación de la varianza cuando se considera si el i ésimo caso puede ser un valor atípico, y en su lugar utilizar el < i>residual estudentizado externamente, que es
basado en todos los residuos Salvo el sospechoso ith residual. Aquí hay que subrayar que for suspect i son computados con ia) Caso excluido.
Si la estimación σ2 Incluye el ientonces se llama el caso internamente estudiada residual, (también conocido como residual normalizado). Si la estimación se utiliza en su lugar, excluyendo el ientonces se llama el caso externamente estudiada, .
Distribución
Si los errores son independientes y normalmente se distribuyen con el valor esperado 0 y la diferencia σ2, entonces la distribución de probabilidad de la ith externally studentized residual es un estudiante t-distribución con n−m− 1 grados de libertad, y puede variar desde a .
Por otro lado, los residuos estudiantilizados internamente están en el rango , donde . = n−m es el número de grados residuales de libertad. Si ti representa el residual estudiante internamente, y asumiendo de nuevo que los errores son independientes idénticamente distribuidas variables gausianas, entonces:
donde t es una variable aleatoria distribuida según la distribución t de Student con ν − 1 grado de libertad. De hecho, esto implica que ti2 /ν sigue la distribución beta B(1/2,(ν − 1)/2). La distribución anterior a veces se denomina distribución tau; Thompson lo derivó por primera vez en 1935.
Cuando . = 3, los residuos estudiantiles internamente se distribuyen uniformemente entre y . Si sólo hay un grado residual de libertad, la fórmula anterior para la distribución de los residuos estudiantilizados internamente no se aplica. En este caso, el ti son todos +1 o -1, con 50% de probabilidad para cada uno.
La desviación estándar de la distribución de residuos internamente estudiantiles es siempre 1, pero esto no implica que la desviación estándar de todo el ti de un experimento particular es 1. Por ejemplo, los residuos estudiantilizados internamente al ajustar una línea recta que pasa (0, 0) a los puntos (1, 4), (2, −1), (2, −1) son , y la desviación estándar de estos no es 1.
Tenga en cuenta que cualquier par de residuos estudiantilizados ti y tj (donde) No son i.i.d. Tienen la misma distribución, pero no son independientes debido a las restricciones sobre los residuos que tienen que resumir a 0 y que sean ortogonales a la matriz de diseño.
Implementaciones de software
Muchos programas y paquetes estadísticos, como R, Python, etc., incluyen implementaciones de residual Studentizado.
Idioma/programa | Función | Notas |
---|---|---|
R | rstandard(model,...) | Estudiante internamente. Véase [2] |
R | rstudent(model,...) | externamente estudiada. See [3] |
Contenido relacionado
Conjunto vacío
Historia de la lógica
Ley de los grandes números