Teorema de cochran

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En estadística, el teorema de Cochran, ideado por William G. Cochran, es un teorema utilizado para justificar resultados relacionados con las distribuciones de probabilidad de las estadísticas que se utilizan en el análisis de varianza.

Declaración

Vamos. U₁,... U_N ser i.i.d. estándar normalmente distribuido variables aleatorias, y ${displaystyle U=[U_{1},...$ . Vamos. ${displaystyle B^{(1)},B^{(2)},ldotsB^{(k)}$ Ser matrices simétricas. Define r_i ser el rango de ${displaystyle B^{(i)}$ . Define ${displaystyle Q_{i}=U^{T}B^{(i)}U}$ Así que Q_i son formas cuadráticas. Asumo adicional ${displaystyle sum _{i}Q_{i}=U^{T}U}$ .

teorema de Cochran establece que los siguientes son equivalentes:

${displaystyle r_{1}+cdots - ¿Qué?$ ,
el Q_i son independientes
cada uno Q_i tiene una distribución chi-squared con r_i grados de libertad.

A menudo se dice como ${displaystyle sum _{i}A_{i}=A}$ , donde ${displaystyle A}$ es idempotente, y ${displaystyle sum _{i}r_{i}=N}$ es reemplazado por ${displaystyle sum _{i}r_{i}=rank(A)}$ . Pero después de una transformación ortogonal, ${displaystyle A=diag(I_{M},0)}$ , y así reducemos a la teorema anterior.

Prueba

Reclamación# ${displaystyle X}$ ser un Gaussian estándar en ${displaystyle mathbb {R} {} {}} {fn}}$ , entonces para cualquier matrices simétricas ${displaystyle Q,Q'}$ , si ${displaystyle X^{T}QX}$ y ${displaystyle X^{T}Q'X}$ tienen la misma distribución, entonces ${displaystyle Q,Q'}$ tienen los mismos eigenvalues (hasta la multiplicidad).

Prueba

Dejar los eigenvalues de ${displaystyle Q}$ Ser ${displaystyle lambda _{1},lambda _{n}$ , luego calcular la función característica de ${displaystyle X^{T}QX}$ . Resulta que

${displaystyle phi (t)=left(prod _{j}(1-2ilambda _{j}t)right)^{-1/2}$

(Para calcularlo, primero diagonalizar ${displaystyle Q}$ , cambiar en ese marco, luego utilizar el hecho de que la función característica de la suma de variables independientes es el producto de sus funciones características.)

Para ${displaystyle X^{T}QX}$ y ${displaystyle X^{T}Q'X}$ para ser igual, sus funciones características deben ser iguales, así ${displaystyle Q,Q'}$ tienen los mismos eigenvalues (hasta la multiplicidad).

Reclamación: ${displaystyle I=sum ¿Qué?$ .

Prueba

${displaystyle U^{T}(I-sum _{i}B_{i}U=0}$ . Desde ${displaystyle (I-sum _{i}B_{i})}$ es simétrico, y ${displaystyle U^{T}(I-sum _{i}B_{i}U=^{d}U^{T}0U}$ , por la reclamación anterior, ${displaystyle (I-sum _{i}B_{i})}$ tiene los mismos valores que 0.

LemmaSi ${displaystyle sum _{i}M_{i}=I}$ , todos ${displaystyle M_{i}$ simétrico, y tienen eigenvalues 0, 1, entonces son simultáneamente diagonalizable.

Prueba

Fijar i, y considerar los eigenvectores v de ${displaystyle M_{i}$ tales que ${displaystyle M_{i}v=v}$ . Entonces tenemos ${displaystyle v^{T}v=v}Iv=v}v+sum _{jneq i}v^{T}M_{j}v}v}$ Así que todo ${displaystyle v^{T}M_{j}v=0}$ . Así obtenemos una división de ${displaystyle mathbb {R}$ en ${displaystyle Voplus V^{perp]$ , tal que V es el espacio de 1-eigen ${displaystyle M_{i}$ , y en los 0-eigenespacios de todos los demás ${displaystyle M_{j}$ . Ahora induciéndose ${displaystyle V^{perp}$ .

Ahora probamos el teorema original. Demostramos que los tres casos son equivalentes probando que cada caso implica el siguiente en un ciclo (en inglés) ${displaystyle 1to 2to 2to 3to 1}$ ).

Prueba

CasoTodos ${displaystyle Q_{i}$ son independientes

Arregla algunos ${displaystyle i}$ , definir ${displaystyle C_{i}=I-B_{i}=sum ¿Por qué?$ , y diagonalizar ${displaystyle B_{i}$ por una transformación ortogonal ${displaystyle O.$ . Entonces considere ${displaystyle OC_{i}O^{T}=I-OB_{i}$ . También está diagonalizada.

Vamos. ${displaystyle ¿Quieres?$ , entonces también es estándar Gaussian. Entonces tenemos

${displaystyle Q_{i}=W^{T}(OB_{i}O^{T}W;quad sum _{jneq i}Q_{j}=W^{T}(I-OB_{i}O^{T})W}$

Inspeccione sus entradas diagonales, para ver que ${displaystyle Q_{i}perp sum _{jneq i}Q_{j}$ implica que sus entradas diagonales no cero son descomunales.

Así todos los eigenvalues de ${displaystyle B_{i}$ son 0, 1, así que ${displaystyle Q_{i}$ es un ${displaystyle chi ^{2}$ no con ${displaystyle R_{i}$ grados de libertad.

Caso: Cada uno ${displaystyle Q_{i}$ es un ${displaystyle chi ^{2}(r_{i}}$ distribución.

Arreglar cualquier ${displaystyle i}$ , diagonalizarlo por transformación ortogonal ${displaystyle O.$ , y reindex, para que ${displaystyle OB_{i}O^{T}=diag(lambda _{1},lambda ¿Qué?$ . Entonces... ${displaystyle Q_{i}=sum _{j}lambda ¿Qué?$ para algunos ${displaystyle U'_{j}$ , una rotación esférica ${displaystyle U_{i}$ .

Desde ${displaystyle Q_{i}sim chi ^{2}(r_{i}}$ , tenemos todo ${displaystyle lambda ¿Qué?$ . Así que... ${displaystyle B_{i}succeq 0}$ , y tienen eigenvalues ${displaystyle 0,1}$ .

Así que diagonalizarlos simultáneamente, añadirlos, encontrar ${displaystyle sum _{i}r_{i}=N}$ .

Caso: ${displaystyle r_{1}+cdots - ¿Qué?$ .

Primero mostramos que las matrices B⁽⁾ⁱ⁾ puede ser diagonalizada simultáneamente por una matriz ortogonal y que sus eigenvalues no cero son todos iguales a los +1. Una vez que se muestre, tome esta transformación ortogonal a esta eigenbasis simultánea, en la que el vector aleatorio ${displaystyle [U_{1},...$ se convierte en ${displaystyle [U'_{1},...$ , pero todo ${displaystyle U_{i}$ son todavía independientes y estándar Gaussian. Entonces el resultado sigue.

Cada una de las matrices B⁽⁾ⁱ⁾ tiene rango r_i y así r_i no cero eigenvalues. Por cada uno i, la suma ${displaystyle C^{(i)}equiv sum _{jneq i}B^{(j)}}$ tiene en la mayoría de las filas ${displaystyle sum _{jneq i}r_{j}=N-r_{i}$ . Desde ${displaystyle B^{(i)}+C^{(i)}=I_{Ntimes N}$ , sigue que C⁽⁾ⁱ⁾ tiene exactamente rango N−r_i.

Por lo tanto B⁽⁾ⁱ⁾ y C⁽⁾ⁱ⁾ se puede diagonalizar simultáneamente. Esto se puede mostrar por primera diagonalización B⁽⁾ⁱ⁾Por el teorema espectral. En esta base, es de la forma:

{displaystyle {begin{bmatrix}lambda ################################################################################################################################################################################################################################################################ ¿Por qué?

Así que la baja ${displaystyle (N-r_{i})}$ Las filas son cero. Desde ${displaystyle C^{(i)}=I-B^{(i)}$ , sigue que estas filas en C⁽⁾ⁱ⁾ en esta base contiene un bloque derecho que es ${displaystyle (N-r_{i})times (N-r_{i})}$ matriz de unidad, con ceros en el resto de estas filas. Pero... C⁽⁾ⁱ⁾ tiene rango N−r_iDebe ser cero en otro lugar. Así es diagonal en esta base también. De ahí que todos los valores no cero de ambos B⁽⁾ⁱ⁾ y C⁽⁾ⁱ⁾ son +1. Este argumento se aplica para todos i, así todos B⁽⁾ⁱ⁾ son semidefinidos positivos.

Además, el análisis anterior puede repetirse en base diagonal para ${displaystyle C^{(1)}=B^{(2)}+sum _{j confianza2}B^{(j)}}$ . En esta base ${displaystyle C^{(1)}$ es la identidad de un ${displaystyle (N-r_{1})times (N-r_{1})}$ espacio vectorial, por lo que sigue que ambos B²⁾ y ${displaystyle sum _{j título2}B^{(j)}$ son simultáneamente diagonalizables en este espacio vectorial (y por lo tanto también junto con B¹⁾). Por iteración sigue que todo B- son simultáneamente diagonalizables.

Así existe una matriz ortogonal ${displaystyle S.$ tal que para todos ${displaystyle i}$ , ${displaystyle S^{mathrm {T}B^{(i)}Sequiv B^{(i)prime }$ es diagonal, donde cualquier entrada ${displaystyle B_{x,y}{(i)prime }$ con índices ${displaystyle x=y}$ , ${displaystyle sum _{j=1}}{i-1}r_{j}traducido=yleq {fnMicrosoft Sans Serif}$ , es igual a 1, mientras que cualquier entrada con otros índices es igual a 0.

Ejemplos

Media muestral y varianza muestral

Si X₁,..., X_n son independientes variables aleatorias normalmente distribuidas con media μ y desviación estándar σ entonces

{displaystyle U_{i}={frac {X_{i}-mu }{sigma }

es normal estándar para cada i. Tenga en cuenta que el Q total es igual a la suma de los U al cuadrado como se muestra aquí:

{displaystyle sum _{i}Q_{i}=sum ¿Qué? ¿Qué? ¿Por qué? ¿Qué? ¿Qué?

que se deriva de la suposición original de que ${displaystyle B_{1}+B_{2}ldots =I}$ . Así que en lugar de eso vamos a calcular esta cantidad y más tarde separarla en Q_iEs. Es posible escribir

{displaystyle sum ¿Qué? ¿Por qué? {X_{i}-{overline {X}} {sigma}}derecha)}{2}+nleft({frac {fnMicrosoft Sans {X}-mu} {sigma}derecha)} {2}}

(Aquí) ${displaystyle {overline {X}}}$ es la muestra media). Para ver esta identidad, multiplicarse por ${displaystyle sigma ^{2}$ y nota que

{displaystyle sum (X_{i}-mu)}=sum (X_{i}-{overline {X}+{overline {X}-mu)}{2}

y expandir para dar

{displaystyle sum (X_{i}-mu)^{2}=sum (X_{i}-{overline {X}})^{2}+sum ({overline {X}-mu)^{2}+2sum (X_{i}-{overline {X}}})({overline {X}-mu}}).

El tercer término es cero porque es igual a una constante multiplicada

{displaystyle sum ({overline {X}-X_{i})=0,}

y el segundo término tiene sólo n términos idénticos sumados. De este modo

{displaystyle sum (X_{i}-mu)^{2}=sum (X_{i}-{overline {X}})^{2}+n({overline {X}-mu)}{2}}}}}

y por lo tanto

{displaystyle sum left({frac {X_{i} {sigma }}right)^{2}=sum left({frac {X_{i}-{sigma }}right)^{2}=sum left({frac {X_{i}-{sigma}-{sigma}-overline {X}} {sigma}}derecha)}{2}+nleft({frac {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans} {fnMicrosoft Sans Serif} {fnMicrosoft Principi}}}}}}} {fncipi} {fncipi}fnun}fnun}}nun}fnun}}fnun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nun}nunnun}nun}nun}nun}nun}nun}nunnun}nun}nun}nun} (U_{i}-{frac {1}{n}sum ¿Qué? ^{Q_{1}+overbrace {{frac {1}left(sum) ¿Qué? ¿Qué?

Ahora ${displaystyle B^{(2)}={frac} {fn} {fn}}} {fn}}$ con ${displaystyle J_{n}$ la matriz de los que tiene rango 1. A su vez ${displaystyle B^{(1)}=I_{n}-{frac {fn} {fn}}} {fn}}$ dado que ${displaystyle I_{n}=B^{(1)}+B^{(2)}$ . Esta expresión también se puede obtener mediante la expansión ${displaystyle Q_{1}$ en la notación de matriz. Se puede demostrar que el rango de ${displaystyle B^{(1)}$ es ${displaystyle n-1}$ como la adición de todas sus filas es igual a cero. Así se cumplen las condiciones para el teorema de Cochran.

El teorema de Cochran establece entonces que Q₁ y Q₂ son independientes, con chi Distribuciones al cuadrado con n − 1 y 1 grado de libertad respectivamente. Esto muestra que la media muestral y la varianza muestral son independientes. Esto también se puede demostrar mediante el teorema de Basu y, de hecho, esta propiedad caracteriza la distribución normal; ninguna otra distribución es independiente de la media muestral y la varianza muestral.

Distribuciones

El resultado de las distribuciones se escribe simbólicamente como

{displaystyle sum left(X_{i}-{overline {X}right)}sim sigma ^{2}chi _{n-1} {2}

{displaystyle n({overline {X}-mu)}sim sigma ^{2}chi _{1} {2}}

Ambas variables aleatorias son proporcionales a la varianza verdadera pero desconocida σ². Por lo tanto, su relación no depende de σ² y, porque son estadísticamente independientes. La distribución de su ratio está dada por

{displaystyle {frac {nleft({noverline {X}-muright)}{2}{frac {1}{n-1}sum left(X_{i}-{overline {X}}derecha)}sim {fnMic {fnMicroc} ¿Qué? {1}{n-1}chi {n-1} {2}}sim} F_{1,n-1}

donde F_{1,n − 1} es la distribución F con 1 y n − 1 grados de libertad (ver también distribución t de Student). El último paso aquí es efectivamente la definición de una variable aleatoria que tiene la distribución F.

Estimación de la varianza

Para estimar la varianza σ², un estimador que a veces se utiliza es el estimador de máxima verosimilitud de la varianza de una distribución normal.

{displaystyle {widehat {sigma }{2}={frac {1} {n}sum left(X_{i}-{overline Bien.

El teorema de Cochran muestra que

{displaystyle {frac {fnfnfnfnfnfnfnfnfn\fnfn\fnfnfnH00FF} {fnfnfnfnfnfn\fnfnfn\fn\fn\fn\fnfnfn\fn\\fnfn\\fn\fnfnfn\\\fnfn\\\\\fn\\\\\fn\\\\\\\\fn\\\\\\\\\\\\fnH002\\\fn\\\\\\\\\\\\ {sigma #### {2} {sigma }sim chi _{n-1}{2}}

y las propiedades de la distribución chi-cuadrado muestran que

{displaystyle {begin{aligned}Eleft({frac {n{widehat) {sigma {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}}} {f}}}}} {f}}}}} {f}}} {f}} {f}}}} {f}}}} {sigma}}}}}}}}}}}}}}} {sigma}}}}}}}}}}} {sigma}}}}}}}}} {sigma}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {p}} {sigma} {sigma} {sigma}} {sigma}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {sigma}} {sigma Eleft({sigma) ################################################################################################################################################################################################################################################################ ################################################################################################################################################################################################################################################################

Formulación alternativa

La siguiente versión se ve a menudo al considerar la regresión lineal. Supongamos que ${displaystyle Ysim N_{n}(0,sigma ^{2}I_{n}$ es un vector normal multivariable normal aleatorio (aquí ${displaystyle I_{n}$ denota los n-por-n matriz de identidad) y si ${displaystyle A_{1},ldots A_{k}$ Todos n-por-n matrices simétricas con ${displaystyle sum _{i=1}{k}A_{i}=I_{n}$ . Entonces, en la definición ${displaystyle r_{i}=operatorname (A_{i})}$ , cualquiera de las siguientes condiciones implica las otras dos:

${displaystyle sum ¿Qué?$
${displaystyle Y... ¿Qué?$ (porque ${displaystyle A_{i}$ son semidefinidos positivos)
${displaystyle Sí.$ es independiente de ${displaystyle Sí.$ para ${displaystyle ineq j.}$

Contenido relacionado

Más resultados...