En estadística, el teorema de Cochran, ideado por William G. Cochran, es un teorema utilizado para justificar resultados relacionados con las distribuciones de probabilidad de las estadísticas que se utilizan en el análisis de varianza.
Declaración
Vamos. U1,... UN ser i.i.d. estándar normalmente distribuido variables aleatorias, y
. Vamos.
Ser matrices simétricas. Define ri ser el rango de
. Define
Así que Qi son formas cuadráticas. Asumo adicional
.
El
teorema de Cochran establece que los siguientes son equivalentes:
,- el Qi son independientes
- cada uno Qi tiene una distribución chi-squared con ri grados de libertad.
A menudo se dice como
, donde
es idempotente, y
es reemplazado por
. Pero después de una transformación ortogonal,
, y así reducemos a la teorema anterior.
Prueba
Reclamación#
ser un Gaussian estándar en
, entonces para cualquier matrices simétricas
, si
y
tienen la misma distribución, entonces
tienen los mismos eigenvalues (hasta la multiplicidad).
PruebaDejar los eigenvalues de
Ser
, luego calcular la función característica de
. Resulta que

(Para calcularlo, primero diagonalizar
, cambiar en ese marco, luego utilizar el hecho de que la función característica de la suma de variables independientes es el producto de sus funciones características.)
Para
y
para ser igual, sus funciones características deben ser iguales, así
tienen los mismos eigenvalues (hasta la multiplicidad).
Reclamación:
.
LemmaSi
, todos
simétrico, y tienen eigenvalues 0, 1, entonces son simultáneamente diagonalizable.
Ahora probamos el teorema original. Demostramos que los tres casos son equivalentes probando que cada caso implica el siguiente en un ciclo (en inglés)
).
PruebaCasoTodos
son independientes
Arregla algunos
, definir
, y diagonalizar
por una transformación ortogonal
. Entonces considere
. También está diagonalizada.
Vamos.
, entonces también es estándar Gaussian. Entonces tenemos

Inspeccione sus entradas diagonales, para ver que
implica que sus entradas diagonales no cero son descomunales.
Así todos los eigenvalues de
son 0, 1, así que
es un
no con
grados de libertad.
Caso: Cada uno
es un
distribución.
Arreglar cualquier
, diagonalizarlo por transformación ortogonal
, y reindex, para que
. Entonces...
para algunos
, una rotación esférica
.
Desde
, tenemos todo
. Así que...
, y tienen eigenvalues
.
Así que diagonalizarlos simultáneamente, añadirlos, encontrar
.
Caso:
.
Primero mostramos que las matrices B()i) puede ser diagonalizada simultáneamente por una matriz ortogonal y que sus eigenvalues no cero son todos iguales a los +1. Una vez que se muestre, tome esta transformación ortogonal a esta eigenbasis simultánea, en la que el vector aleatorio
se convierte en
, pero todo
son todavía independientes y estándar Gaussian. Entonces el resultado sigue.
Cada una de las matrices B()i) tiene rango ri y así ri no cero eigenvalues. Por cada uno i, la suma
tiene en la mayoría de las filas
. Desde
, sigue que C()i) tiene exactamente rango N−ri.
Por lo tanto B()i) y C()i) se puede diagonalizar simultáneamente. Esto se puede mostrar por primera diagonalización B()i)Por el teorema espectral. En esta base, es de la forma:

Así que la baja
Las filas son cero. Desde
, sigue que estas filas en C()i) en esta base contiene un bloque derecho que es
matriz de unidad, con ceros en el resto de estas filas. Pero... C()i) tiene rango N−riDebe ser cero en otro lugar. Así es diagonal en esta base también. De ahí que todos los valores no cero de ambos B()i) y C()i) son +1. Este argumento se aplica para todos i, así todos B()i) son semidefinidos positivos.
Además, el análisis anterior puede repetirse en base diagonal para
. En esta base
es la identidad de un
espacio vectorial, por lo que sigue que ambos B2) y
son simultáneamente diagonalizables en este espacio vectorial (y por lo tanto también junto con B1)). Por iteración sigue que todo B- son simultáneamente diagonalizables.
Así existe una matriz ortogonal
tal que para todos
,
es diagonal, donde cualquier entrada
con índices
,
, es igual a 1, mientras que cualquier entrada con otros índices es igual a 0.
Ejemplos
Media muestral y varianza muestral
Si X1,..., Xn son independientes variables aleatorias normalmente distribuidas con media μ y desviación estándar σ entonces

es normal estándar para cada i. Tenga en cuenta que el Q total es igual a la suma de los U al cuadrado como se muestra aquí:

que se deriva de la suposición original de que
.
Así que en lugar de eso vamos a calcular esta cantidad y más tarde separarla en QiEs. Es posible escribir

(Aquí)
es la muestra media). Para ver esta identidad, multiplicarse por
y nota que

y expandir para dar

El tercer término es cero porque es igual a una constante multiplicada

y el segundo término tiene sólo n términos idénticos sumados. De este modo

y por lo tanto

Ahora
con
la matriz de los que tiene rango 1. A su vez
dado que
. Esta expresión también se puede obtener mediante la expansión
en la notación de matriz. Se puede demostrar que el rango de
es
como la adición de todas sus filas es igual a cero. Así se cumplen las condiciones para el teorema de Cochran.
El teorema de Cochran establece entonces que Q1 y Q2 son independientes, con chi Distribuciones al cuadrado con n − 1 y 1 grado de libertad respectivamente. Esto muestra que la media muestral y la varianza muestral son independientes. Esto también se puede demostrar mediante el teorema de Basu y, de hecho, esta propiedad caracteriza la distribución normal; ninguna otra distribución es independiente de la media muestral y la varianza muestral.
Distribuciones
El resultado de las distribuciones se escribe simbólicamente como


Ambas variables aleatorias son proporcionales a la varianza verdadera pero desconocida σ2. Por lo tanto, su relación no depende de σ2 y, porque son estadísticamente independientes. La distribución de su ratio está dada por

donde F1,n − 1 es la distribución F con 1 y n − 1 grados de libertad (ver también distribución t de Student). El último paso aquí es efectivamente la definición de una variable aleatoria que tiene la distribución F.
Estimación de la varianza
Para estimar la varianza σ2, un estimador que a veces se utiliza es el estimador de máxima verosimilitud de la varianza de una distribución normal.

El teorema de Cochran muestra que

y las propiedades de la distribución chi-cuadrado muestran que

Formulación alternativa
La siguiente versión se ve a menudo al considerar la regresión lineal. Supongamos que
es un vector normal multivariable normal aleatorio (aquí
denota los n-por-n matriz de identidad) y si
Todos n-por-n matrices simétricas con
. Entonces, en la definición
, cualquiera de las siguientes condiciones implica las otras dos:

(porque
son semidefinidos positivos)
es independiente de
para 
Más resultados...