Distribución chi-cuadrado
En teoría de probabilidad y estadísticas, distribución de chi-squared (también Chi-square o χ χ 2{displaystyle chi ^{2}-distribuciónCon k{displaystyle k} grados de libertad es la distribución de una suma de los cuadrados k{displaystyle k} variables aleatorias normales independientes. La distribución chi-squared es un caso especial de la distribución gamma y es una de las distribuciones de probabilidad más utilizadas en estadísticas inferenciales, especialmente en pruebas de hipótesis y en la construcción de intervalos de confianza. Esta distribución a veces se llama distribución central de chi-squared, un caso especial de la distribución más general no central de chi-squared.
La distribución chi-cuadrado se utiliza en las pruebas comunes de chi-cuadrado para la bondad de ajuste de una distribución observada a una teórica, la independencia de dos criterios de clasificación de datos cualitativos y en la estimación del intervalo de confianza para una población estándar desviación de una distribución normal de una desviación estándar de la muestra. Muchas otras pruebas estadísticas también utilizan esta distribución, como el análisis de varianza por rangos de Friedman.
Definiciones
Si Z1,..., Zk son variables aleatorias normales estándar e independientes, entonces la suma de sus cuadrados,
- Q=.. i=1kZi2,{displaystyle Q =sum ¿Qué?
se distribuye de acuerdo con la distribución chi-cuadrado con k grados de libertad. Esto generalmente se denota como
- Q♪ ♪ χ χ 2()k)oQ♪ ♪ χ χ k2.{displaystyle Q sim \chi ^{2}(k) {text{or}\\\\\fnfnfn}\\\\\\\cH33}\\cH33}\\\\cH33}\\\\\\\\\\\cH33}\\\\\\\\\\\\\\\\\\\\fn\\\\\\\\\\\\\\\\\\\\\\\\\\\fn\\fn\\\\\\fn\\\\\\\\\\\\\\\fn\\\\\ Q sim chi _{k}^{2}
La distribución chi-cuadrado tiene un parámetro: un entero positivo k que especifica el número de grados de libertad (el número de variables aleatorias que se suman, Zi s).
Introducción
La distribución de chi-cuadrado se usa principalmente en la prueba de hipótesis y, en menor medida, para los intervalos de confianza de la varianza de la población cuando la distribución subyacente es normal. A diferencia de las distribuciones más conocidas, como la distribución normal y la distribución exponencial, la distribución chi-cuadrado no se aplica con tanta frecuencia en el modelado directo de fenómenos naturales. Se plantea en las siguientes pruebas de hipótesis, entre otras:
- Prueba de independencia en las tablas de contingencia
- Prueba Chi-squared de bondad de ajuste de datos observados a distribuciones hipotéticas
- Prueba de ratio de probabilidad para modelos anidados
- Prueba de registro en análisis de supervivencia
- Prueba de Cochran-Mantel-Haenszel para tablas de contingencia estratificadas
- Prueba de Wald
- Prueba de puntuación
También es un componente de la definición de la distribución t y la distribución F utilizada en pruebas t, análisis de varianza y análisis de regresión.
La principal razón por la cual la distribución de chi-cuadrado se usa ampliamente en la prueba de hipótesis es su relación con la distribución normal. Muchas pruebas de hipótesis utilizan una estadística de prueba, como la estadística t en una prueba t. Para estas pruebas de hipótesis, a medida que aumenta el tamaño de la muestra, n, la distribución muestral del estadístico de prueba se aproxima a la distribución normal (central teorema del límite). Debido a que la estadística de prueba (como t) tiene una distribución normal asintótica, siempre que el tamaño de la muestra sea lo suficientemente grande, la distribución utilizada para la hipótesis las pruebas pueden aproximarse mediante una distribución normal. La prueba de hipótesis utilizando una distribución normal se entiende bien y es relativamente fácil. La distribución chi-cuadrado más simple es el cuadrado de una distribución normal estándar. Entonces, siempre que se pueda usar una distribución normal para una prueba de hipótesis, se podría usar una distribución de chi-cuadrado.
Supongamos que Z{displaystyle Z} es una variable aleatoria muestra de la distribución normal estándar, donde el medio es 0{displaystyle 0} y la diferencia 1{displaystyle 1}: Z♪ ♪ N()0,1){displaystyle Zsim N(0,1)}. Ahora, considere la variable aleatoria Q=Z2{displaystyle Q=Z^{2}. La distribución de la variable aleatoria Q{displaystyle Q} es un ejemplo de una distribución entre chiscuas: Q♪ ♪ χ χ 12{displaystyle Q\sim chi _{1}^{2}. En el subscripto 1 se indica que esta distribución en particular se construye a partir de sólo 1 distribución normal estándar. Se dice que una distribución cisterna construida al cubrir una única distribución normal estándar tiene un grado de libertad. Así, a medida que aumenta el tamaño de la muestra para una prueba de hipótesis, la distribución de la estadística de prueba se aproxima a una distribución normal. Al igual que los valores extremos de la distribución normal tienen baja probabilidad (y dan pequeños p-valores), los valores extremos de la distribución de chi-squared tienen baja probabilidad.
Una razón adicional por la que la distribución de chi-cuadrado se usa ampliamente es que aparece como la distribución de muestra grande de las pruebas de razón de verosimilitud generalizada (LRT). Los LRT tienen varias propiedades deseables; en particular, las LRT simples suelen proporcionar la potencia más alta para rechazar la hipótesis nula (lema de Neyman-Pearson) y esto conduce también a las propiedades de optimización de las LRT generalizadas. Sin embargo, las aproximaciones normal y chi-cuadrado solo son válidas asintóticamente. Por esta razón, es preferible utilizar la distribución t en lugar de la aproximación normal o la aproximación chi-cuadrado para un tamaño de muestra pequeño. De manera similar, en los análisis de tablas de contingencia, la aproximación de chi-cuadrado será deficiente para un tamaño de muestra pequeño, y es preferible utilizar la prueba exacta de Fisher. Ramsey muestra que la prueba binomial exacta siempre es más poderosa que la aproximación normal.
Lancaster muestra las conexiones entre las distribuciones binomial, normal y chi-cuadrado, de la siguiente manera. De Moivre y Laplace establecieron que una distribución binomial podría aproximarse a una distribución normal. Específicamente mostraron la normalidad asintótica de la variable aleatoria
- χ χ =m− − NpNpq{displaystyle chi = {m-Np over {sqrt {Npq}}}
Donde m{displaystyle m} es el número observado de éxitos en N{displaystyle N} ensayos, donde la probabilidad de éxito es p{displaystyle p}, y q=1− − p{displaystyle q=1-p}.
Al elevar al cuadrado ambos lados de la ecuación se obtiene
χ χ 2=()m− − Np)2Npq{displaystyle chi ^{2}={(m-Np)^{2} over Npq}
Uso N=Np+N()1− − p){displaystyle N=Np+N(1-p)}, N=m+()N− − m){displaystyle N=m+(N-m)}, y q=1− − p{displaystyle q=1-p}, esta ecuación puede ser reescrita como
χ χ 2=()m− − Np)2Np+()N− − m− − Nq)2Nq{displaystyle chi ^{2}={(m-Np)^{2}over Np}+{(N-m-Nq)^{2} over Nq}
La expresión de la derecha tiene la forma que Karl Pearson generalizaría a la forma
χ χ 2=.. i=1n()Oi− − Ei)2Ei{displaystyle chi ^{2}=sum - ¿Qué? {fnK}}} {fn}}} {fn}}}} {fn}}}}} {f}}}}}} {fn}}}}}}}}}}} {fn}}}}}}}}}}}}}}}}} {c}} {}}}}}}} {}}}}}}} {}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}
dónde
χ χ 2{displaystyle chi ^{2} = Estatística de prueba acumulativa de Pearson, que se aproxima asintóticamente a un χ χ 2{displaystyle chi ^{2} distribución; Oi{displaystyle O_{i} = el número de observaciones de tipo i{displaystyle i}; Ei=Npi{displaystyle E_{i}=Np_{i} = la frecuencia esperada (teórica) del tipo i{displaystyle i}, afirmado por la hipótesis nula de que la fracción de tipo i{displaystyle i} población pi{displaystyle P_{i}; y n{displaystyle n} = el número de células en la tabla.
En el caso de un resultado binomial (golpeando una moneda), la distribución binomial puede ser aproximada por una distribución normal (para suficientemente grande) n{displaystyle n}). Debido a que el cuadrado de una distribución normal estándar es la distribución equiparada con un grado de libertad, la probabilidad de un resultado como 1 cabezas en 10 ensayos se puede aproximar ya sea usando la distribución normal directamente, o la distribución de chi-squared para la diferencia normalizada y cuadrada entre el valor observado y esperado. Sin embargo, muchos problemas implican más que los dos posibles resultados de un binomio, y en cambio requieren 3 o más categorías, lo que conduce a la distribución multinomio. Así como de Moivre y Laplace buscaban y encontraron la aproximación normal al binomial, Pearson buscó y encontró una aproximación normal multivariada degenerada a la distribución multinomial (los números en cada categoría se suman al tamaño total de la muestra, que se considera fija). Pearson mostró que la distribución de chi-squared surgió de tal aproximación normal multivariada a la distribución multinomial, teniendo en cuenta la dependencia estadística (correlación negativa) entre el número de observaciones en diferentes categorías.
Función de densidad de probabilidad
La función de densidad de probabilidad (pdf) de la distribución chi-cuadrado es
- 0;\0,&{text{otherwise}}.end{cases}}}" xmlns="http://www.w3.org/1998/Math/MathML">f()x;k)={}xk2− − 1e− − x22k2.. ()k2),x■0;0,de otra manera.{displaystyle f(x;,k)={begin{cases}{dfrac {x^{frac {k}{2}-1}e^{-{frac} {x}{2}} {2}{frac} {k}{2}}Gamma left({frac {k} {k}right)}}}}} {, {,} {}}}end{cases}}}}}}}0;\0,&{text{otherwise}}.end{cases}}}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/25ec7e8b117991fb562114d4c5fe76c929bda258" style="vertical-align: -5.671ex; width:36.383ex; height:12.509ex;"/>
Donde .. ()k/2){textstyle Gamma (k/2)} denota la función gamma, que tiene valores de forma cerrada para entero k{displaystyle k}.
Para derivaciones del pdf en los casos de uno, dos y k{displaystyle k} grados de libertad, ver Proofs relacionados con la distribución de chi-squared.
Función de distribución acumulativa
Su función de distribución acumulada es:
- F()x;k)=γ γ ()k2,x2).. ()k2)=P()k2,x2),{fnMicroc {gnK}} {fnMicroc {c}},,{frac {x}{2}}}}}} {gn0}} {fnMicroc {f}}}}}}}=PmfnK} {f} {fnMicroc} {f}} {f}}}}}}}}}} {f}}}}}} {f}}}}} {f}}}}} {f} {f}}}} {f}} {f}}}}}}}}}}}}}}}}} {f}}}}} {f} {f}}}}}} {f}}}}}}}}}} {f}}}}}}}}}} {f}}} {f}}}}}}}}}}}}}} {f}}}}}}}}}}}}}}
Donde γ γ ()s,t){displaystyle gamma (s,t)} es la función gamma incompleta inferior y P()s,t){textstyle P(s,t)} es la función gamma regularizada.
En un caso especial k=2{displaystyle k=2} esta función tiene la forma simple:
- F()x;2)=1− − e− − x/2{displaystyle F(x;,2)=1-e^{-x/2}
que puede derivarse fácilmente mediante la integración f()x;2)=12e− − x2{displaystyle f(x;,2)={2}e^{-{frac} {x}{2}}} directamente. La recurrencia entero de la función gamma hace que sea fácil de calcular F()x;k){displaystyle F(x;,k)} para otros pequeños, incluso k{displaystyle k}.
Las tablas de la función de distribución acumulativa chi-cuadrado están ampliamente disponibles y la función se incluye en muchas hojas de cálculo y todos los paquetes estadísticos.
Letting z↑ ↑ x/k{displaystyle zequiv x/k}, Chernoff bordes en la cola inferior y superior del CDF se puede obtener. Para los casos cuando <math alttext="{displaystyle 0<z0.z.1{displaystyle 0 madez贸1}<img alt="0<z (que incluyen todos los casos en que este CDF es inferior a la mitad): F()zk;k)≤ ≤ ()ze1− − z)k/2.{displaystyle F(zk;,k)leq (ze^{1-z}{k/2}.}
La cola atada para los casos cuando 1}" xmlns="http://www.w3.org/1998/Math/MathML">z■1{displaystyle z]1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/874f0fee4e100662143d0c05e67cb73dec5b2cd1" style="vertical-align: -0.338ex; width:5.349ex; height:2.176ex;"/>, de forma similar, es
- 1− − F()zk;k)≤ ≤ ()ze1− − z)k/2.{displaystyle 1-F(zk;,k)leq (ze^{1-z}^{k/2}
Para ver otra aproximación de la CDF modelada a partir del cubo de una gaussiana, consulte Distribución de chi-cuadrado no central.
Propiedades
Teorema de Cochran
Si Z1,... Zk son independientes idénticamente distribuidas (i.i.d.), variables normales normales aleatorias, luego .. i=1k()Zi− − Z̄ ̄ )2♪ ♪ χ χ k− − 12{displaystyle sum _{i=1}{k}(Z_{i}-{overline {Z})^{2}sim} chi _{k-1} {2}}Donde
Z ̄ ̄ = 1 k .. i = 1 k Z i . {displaystyle {fnK}={fnMic} {1}{k}sum ¿Qué?
Aditividad
Se deriva de la definición de la distribución de chi-squared que la suma de variables independientes chi-squared también se distribuye con chi-squared. Específicamente, si Xi,i=1,n̄ ̄ {displaystyle X_{i},i={overline {1,n}} son variables independientes ci-cuadradas con ki{displaystyle K_{i}, i=1,n̄ ̄ {displaystyle i={overline {1,n}} grados de libertad, respectivamente, entonces Y=X1+...+Xn{displaystyle Y=X_{1}+...+ X_{n} es chi-squared distribuido con k1+...+kn{displaystyle k_{1}+k_{n} grados de libertad.
Media de la muestra
El medio de la muestra n{displaystyle n} i.i.d. variables de grado k{displaystyle k} se distribuye de acuerdo a una distribución gamma con forma α α {displaystyle alpha } y escala Silencio Silencio {displaystyle theta } parámetros:
- X̄ ̄ =1n.. i=1nXi♪ ♪ Gamma ()α α =nk/2,Silencio Silencio =2/n)DondeXi♪ ♪ χ χ 2()k){displaystyle {fnK}= {fn} {fnK}}}} {fn}} {fn}} {fn}} {fn}} {fn} {fn}}} {fn}}}}}} {fn} {fn}} {fn}}}}}}}}}}}}}}}} { ################################################################################################################################################################################################################################################################ {Gamma} left(alpha =n,k/2,theta =2/nright)qquad {text{where{where }X_{i}sim chi ^{2}(k)}
Asintotically, given that for a scale parameter α α {displaystyle alpha } ir al infinito, una distribución Gamma converge hacia una distribución normal con expectativa μ μ =α α ⋅ ⋅ Silencio Silencio {displaystyle mu =alpha cdot theta } y diferencia σ σ 2=α α Silencio Silencio 2{displaystyle sigma ^{2}=alpha ,theta ^{2}, la muestra significa converger hacia:
X̄ ̄ →n→ → JUEGO JUEGO N()μ μ =k,σ σ 2=2k/n){displaystyle {overline {X}xrightarrow {ntoinfty} N(mu =k,sigma ^{2}=2,k/n)}
Tenga en cuenta que habríamos obtenido el mismo resultado invocando en su lugar el teorema límite central, señalando que para cada variable de grado equipada k{displaystyle k} la expectativa es k{displaystyle k} y su diferencia 2k{displaystyle 2,k} (y por lo tanto la diferencia de la muestra significa X̄ ̄ {displaystyle {overline {X}}} estar σ σ 2=2kn{displaystyle sigma ^{2}={frac {2k} {n}}}).
Entropía
La entropía diferencial viene dada por
- h=∫ ∫ 0JUEGO JUEGO f()x;k)In f()x;k)dx=k2+In [2.. ()k2)]+()1− − k2)↑ ↑ ()k2),{displaystyle h=int _{0}{infty }f(x;,k)ln f(x;,k),dx={frac {k}{2}}+ln left[2,Gamma left({frac {k}{2}right)right]+left(1-{frac {k}right),psileft({frac {k}{2}derecha),}}}}}}}} {k}{2}{2}}}}{2}}}}}}}}}{2}}}}}{2}}}}}}}}}}}}}}}}}}}}}} {dere)}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {dere)}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}} {
Donde ↑ ↑ ()x){displaystyle psi (x)} es la función Digamma.
La distribución chi-squared es la distribución máxima de probabilidad de entropía para un variato aleatorio X{displaystyle X} para la cual E ()X)=k{displaystyle operatorname {E} (X)=k} y E ()In ()X))=↑ ↑ ()k/2)+In ()2){displaystyle operatorname {E} (ln(X)=psi (k/2)+ln(2)} están arreglados. Dado que el chi-squared está en la familia de distribuciones gamma, esto puede derivarse sustituyendo valores apropiados en la espera del momento de registro de gamma. Para derivación de principios más básicos, vea la derivación en función generadora de momento de la estadística suficiente.
Momentos no centrales
Los momentos sobre cero de una distribución de chi-scua k{displaystyle k} Los grados de libertad se otorgan por
- E ()Xm)=k()k+2)()k+4)⋯ ⋯ ()k+2m− − 2)=2m.. ()m+k2).. ()k2).{displaystyle operatorname {E} (X^{m}=k(k+2)(k+4)cdots (k+2m-2)=2^{m}{m}{frac {Gammaleft(m+{frac {k}{2}right)}{ Gamma left.
Cumulantes
Los cumulantes se obtienen fácilmente mediante una expansión en serie de potencias (formal) del logaritmo de la función característica:
- κ κ n=2n− − 1()n− − 1)!k{displaystyle kappa _{n}=2^{n-1}(n-1)!,k}
Concentración
La distribución chi-cuadrado exhibe una fuerte concentración alrededor de su media. Los límites estándar de Laurent-Massart son:
- P ()X− − k≥ ≥ 2kx+2x)≤ ≤ exp ()− − x){displaystyle operatorname (X-kgeq 2{sqrt {kx}+2x)leq exp(-x)}
- P ()k− − X≥ ≥ 2kx)≤ ≤ exp ()− − x){displaystyle operatorname {P} (k-Xgeq 2{sqrt {kx})leq exp(-x)}
Propiedades asintóticas
Por el teorema de límite central, porque la distribución de chi es la suma de k{displaystyle k} variables aleatorias independientes con media finita y varianza, converge a una distribución normal para grandes k{displaystyle k}. Para muchos fines prácticos, 50}" xmlns="http://www.w3.org/1998/Math/MathML">k■50{displaystyle k confianza50}50}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1b3f0ab232907f3613427b55811cc99efd9d66d7" style="vertical-align: -0.338ex; width:6.635ex; height:2.176ex;"/> la distribución está suficientemente cerca de una distribución normal, por lo que la diferencia es ignorable. Específicamente, si X♪ ♪ χ χ 2()k){displaystyle Xsim chi ^{2}(k)}, entonces como k{displaystyle k} tiende a la infinidad, la distribución de ()X− − k)/2k{displaystyle (X-k)/{sqrt {2k}} tiende a una distribución normal estándar. Sin embargo, la convergencia es lenta ya que la astucia es 8/k{displaystyle {sqrt {8/k}} y el exceso de kurtosis es 12/k{displaystyle 12/k}.
La distribución del muestreo In ()χ χ 2){displaystyle ln(chi ^{2}} converge a la normalidad mucho más rápido que la distribución de muestreo χ χ 2{displaystyle chi ^{2}, como la transformación logarítmica elimina gran parte de la asimetría.
Otras funciones de la distribución chi-cuadrado convergen más rápidamente a una distribución normal. Algunos ejemplos son:
- Si X♪ ♪ χ χ 2()k){displaystyle Xsim chi ^{2}(k)} entonces 2X{displaystyle {sqrt {2X}} se distribuye aproximadamente normalmente con media 2k− − 1{displaystyle {sqrt {2k-1}} y varianza unitaria (1922, por R. A. Fisher, ver (18.23), p. 426 de Johnson.
- Si X♪ ♪ χ χ 2()k){displaystyle Xsim chi ^{2}(k)} entonces X/k3{displaystyle {sqrt[{3}{X/k}} {fnK}}} {fnK}}} {fn}}}}}} {fnK}}}} {fnK}}}}}}}}}}}}} {fnK}}}} {fnK}}}} se distribuye aproximadamente normalmente con media 1− − 29k{displaystyle 1-{frac {2}{9k}} y diferencia 29k.{fnMicroc} {2}{9k}.} Esto es conocido como Wilson-Hilferty transformation, ver (18.24), p. 426 de Johnson.
- Esta transformación normalizadora conduce directamente a la aproximación mediana comúnmente utilizada k()1− − 29k)3{displaystyle k{bigg}1-{frac {2} {} {bigg}} {3};} por el back-transforming de la media, que es también la mediana, de la distribución normal.
Distribuciones relacionadas
- As k→ → JUEGO JUEGO {displaystyle kto infty}, ()χ χ k2− − k)/2k→dN()0,1){\fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}\fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} (distribución normal)
- χ χ k2♪ ♪ χ χ .k2()0){displaystyle chi _{k}{2}sim} {fnMicrosoft Sans Serif} ¿Qué? (distribución no centralizada con parámetros de no centralidad λ λ =0{displaystyle lambda =0})
- Si Y♪ ♪ F().. 1,.. 2){displaystyle Ysim mathrm {F} (nu _{1},nu _{2})} entonces X=lim.. 2→ → JUEGO JUEGO .. 1Y{displaystyle X=lim _{2}to infty }nu _{1}Y} tiene la distribución de Chi-squared χ χ .. 12{displaystyle chi _{nu ¿Qué?
- Como caso especial, si Y♪ ♪ F()1,.. 2){displaystyle Ysim mathrm {F} (1,nu _{2},} entonces X=lim.. 2→ → JUEGO JUEGO Y{displaystyle X=lim _{2}to infty }Y,} tiene la distribución de Chi-squared χ χ 12{displaystyle chi _{1} {2}}
- .. Ni=1,...... ,k()0,1).. 2♪ ♪ χ χ k2{displaystylefnegociofnh00fncipalmente {N}_{i=1,ldotsk}(0,1):41}sim chi _{k}^{2}} (La norma cuadrada) k variables estándar normalmente distribuidas es una distribución ci-cuadrada k grados de libertad)
- Si X♪ ♪ χ χ .. 2{displaystyle Xsim chi _{2},} y 0,}" xmlns="http://www.w3.org/1998/Math/MathML">c■0{displaystyle c]0,}0," aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/2c0ad629caefab32286787a41c17b7600341c5d9" style="vertical-align: -0.338ex; width:5.655ex; height:2.176ex;"/>, entonces cX♪ ♪ .. ()k=.. /2,Silencio Silencio =2c){displaystyle cXsim Gamma (k=nu /2,theta =2c),}. (distribución gamma)
- Si X♪ ♪ χ χ k2{displaystyle Xsim chi _{k}^{2} entonces X♪ ♪ χ χ k{displaystyle {sqrt {X}sim chi _{k} (distribución chi)
- Si X♪ ♪ χ χ 22{displaystyle Xsim chi ¿Qué?, entonces X♪ ♪ Gastos ()1/2){displaystyle Xsim operatorname {Exp} (1/2)} es una distribución exponencial. (Ver distribución gamma para más.)
- Si X♪ ♪ χ χ 2k2{displaystyle Xsim chi _{2k}{2}}, entonces X♪ ♪ Erlang ()k,1/2){displaystyle Xsim operatorname {Erlang} (k,1/2)} es una distribución de Erlang.
- Si X♪ ♪ Erlang ()k,λ λ ){displaystyle Xsim operatorname {Erlang} (k,lambda)}, entonces 2λ λ X♪ ♪ χ χ 2k2{displaystyle 2lambda Xsim chi _{2k}{2}}
- Si X♪ ♪ Rayleigh ()1){displaystyle Xsim operatorname {Rayleigh} (1),} (Distribución extrema) entonces X2♪ ♪ χ χ 22{displaystyle X^{2}sim chi _{2}{2},}
- Si X♪ ♪ Maxwell ()1){displaystyle Xsim operatorname {Maxwell} (1),} (Distribución Maxwell) entonces X2♪ ♪ χ χ 32{displaystyle X^{2}sim chi _{3}{2},}
- Si X♪ ♪ χ χ .. 2{displaystyle Xsim chi _{nu }{2} entonces 1X♪ ♪ Inv- χ χ .. 2{fnMicroc} {1}{X}sim operatorname {Inv-} chi _{2},} (Distribución inversa-chi-squared)
- La distribución chi-squared es un caso especial de distribución tipo III Pearson
- Si X♪ ♪ χ χ .. 12{displaystyle Xsim chi _{nu ¿Qué? y Y♪ ♪ χ χ .. 22{displaystyle Ysim chi _{nu ¿Qué? son independientes entonces XX+Y♪ ♪ Beta ().. 12,.. 22){displaystyle {tfrac {X}{X+Y}sim operatorname {Beta} ({tfrac {nu} ¿Por qué? (distribución de beta)
- Si X♪ ♪ U ()0,1){displaystyle Xsim operatorname {U} (0,1),} (distribución uniforme) entonces − − 2log ()X)♪ ♪ χ χ 22{displaystyle -2log(X)sim chi _{2} {2},}
- Si Xi♪ ♪ Laplace ()μ μ ,β β ){displaystyle X_{i}sim operatorname {Laplace} (mubeta),} entonces .. i=1n2SilencioXi− − μ μ Silencioβ β ♪ ♪ χ χ 2n2{displaystyle sum _{i=1}{n}{frac {2 privacyX_{i}-mu} ¿Por qué?
- Si Xi{displaystyle X_{i} sigue la distribución normal generalizada (versión 1) con parámetros μ μ ,α α ,β β {displaystyle mualphabeta} entonces .. i=1n2SilencioXi− − μ μ Silencioβ β α α ♪ ♪ χ χ 2n/β β 2{displaystyle sum _{i=1}{n}{frac Oh, Dios mío. }sim chi _{2n/beta }{2},}
- la distribución de los chi-squared es una transformación de la distribución de Pareto
- La t-distribución del estudiante es una transformación de la distribución de chi-squared
- La distribución t del estudiante se puede obtener a partir de la distribución entre chi y la distribución normal
- La distribución de beta no central se puede obtener como una transformación de la distribución de chi-squared y la distribución no central de chi-squared
- La distribución t no central se puede obtener de la distribución normal y la distribución de chi-squared
Una variable ci-cuadrada con k{displaystyle k} grados de libertad se define como la suma de los cuadrados k{displaystyle k} variables aleatorias normales independientes.
Si Y{displaystyle Sí. es un k{displaystyle k}-dimensional vector aleatorio gais con vector medio μ μ {displaystyle mu } y rango k{displaystyle k} matriz de covariancia C{displaystyle C}, entonces X=()Y− − μ μ )TC− − 1()Y− − μ μ ){displaystyle X=(Y-mu)}C^{-1}(Y-mu)} es chi-squared distribuido con k{displaystyle k} grados de libertad.
La suma de cuadrados de variables estadísticamente independientes de la unidad-variancia Gausianas que hacen no tienen cero rendimientos una generalización de la distribución de chi-squared llamada la distribución no central de chi-squared.
Si Y{displaystyle Sí. es un vector de k{displaystyle k} i.i.d. variables aleatorias normales y normales A{displaystyle A} es un k× × k{displaystyle ktimes k} matriz simétrica, idempotente con rango k− − n{displaystyle k-n}, entonces la forma cuadrática YTAY{displaystyle Sí. es chi-cuadrón distribuido con k− − n{displaystyle k-n} grados de libertad.
Si .. {displaystyle Sigma } es un p× × p{displaystyle ptimes p} matriz de covariancia positiva y definitiva con entradas diagonales estrictamente positivas, entonces para X♪ ♪ N()0,.. ){displaystyle Xsim N(0,Sigma)} y w{displaystyle w} aleatorio p{displaystyle p}-vector independiente de X{displaystyle X} tales que w1+⋯ ⋯ +wp=1{displaystyle w_{1}+cdots # y wi≥ ≥ 0,i=1,⋯ ⋯ ,p,{displaystyle w_{i}gq 0,i=1,cdotsp,} sostiene que
1()w1X1,⋯ ⋯ ,wpXp).. ()w1X1,⋯ ⋯ ,wpXp)⊤ ⊤ ♪ ♪ χ χ 12.{displaystyle {frac {1}{fcfnMicroc {w_{1} {X_{1}}}cdots{frac {w_{p}{X_{p}}right) Sigma left({frac {w_{1} {X_{1}}}cdots{frac {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} }sim chi _{1} {2}.}
La distribución chi-cuadrado también está naturalmente relacionada con otras distribuciones derivadas de la gaussiana. En particular,
- Y{displaystyle Sí. es F-distribuido, Y♪ ♪ F()k1,k2){displaystyle Ysim F(k_{1},k_{2}} si Y=X1/k1X2/k2{displaystyle Y={frac {X_{2}}}}}}} {cH0}}}}}}} {cH0}}}}}}}}}} {ccH9}}}}}}}} {cH}}}}} {cH}}}}}}}}}}}}}}} {cH}}}}}} {}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}} { { {} {}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {}}}} {}}}}} { { { { { { { { { { { {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}, donde X1♪ ♪ χ χ k12{displaystyle X_{1}sim chi ¿Qué? y X2♪ ♪ χ χ k22{displaystyle X_{2}sim chi ¿Qué? son estadísticamente independientes.
- Si X1♪ ♪ χ χ k12{displaystyle X_{1}sim chi ¿Qué? y X2♪ ♪ χ χ k22{displaystyle X_{2}sim chi ¿Qué? son estadísticamente independientes, entonces X1+X2♪ ♪ χ χ k1+k22{displaystyle X_{1}+X_{2}sim chi ¿Qué?. Si X1{displaystyle X_{1} y X2{displaystyle X_{2} no son independientes, entonces X1+X2{displaystyle X_{1}+X_{2} no se distribuye chi-square.
Generalizaciones
La distribución chi-cuadrado se obtiene como la suma de los cuadrados de k independiente, media cero, varianza unitaria Variables aleatorias gaussianas. Las generalizaciones de esta distribución se pueden obtener sumando los cuadrados de otros tipos de variables aleatorias gaussianas. Varias distribuciones de este tipo se describen a continuación.
Combinación lineal
Si X1,...... ,Xn{displaystyle X_{1},ldots X_{n} son variables cuadradas al azar y 0}}" xmlns="http://www.w3.org/1998/Math/MathML">a1,...... ,an▪ ▪ R■0{displaystyle a_{1},ldotsa_{n}in mathbb {R} _{}0}0}}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/392907555e5af36b1a203fdfaa7a964b577893e9" style="vertical-align: -0.671ex; width:16.762ex; height:2.509ex;"/>, entonces una expresión cerrada para la distribución de X=.. i=1naiXi{displaystyle X=sum ¿Qué? no se sabe. Puede ser, sin embargo, aproximado eficientemente utilizando la propiedad de funciones características de variables aleatorias de chi-square.
Distribuciones chi-cuadrado
Distribución chi-cuadrado no central
La distribución chi-cuadrado no central se obtiene de la suma de los cuadrados de variables aleatorias gaussianas independientes que tienen varianza unitaria y medias distintas de cero.
Distribución generalizada de chi-cuadrado
La distribución chi-cuadrado generalizada se obtiene de la forma cuadrática z'Az donde z es un vector gaussiano de media cero que tiene una matriz de covarianza arbitraria y A es una matriz arbitraria.
Distribuciones gamma, exponencial y relacionadas
La distribución chi-squared X♪ ♪ χ χ k2{displaystyle Xsim chi _{k}^{2} es un caso especial de la distribución gamma, en que X♪ ♪ .. ()k2,12){displaystyle Xsim Gamma left({frac {k}{2}},{frac {2}}right)} utilizando la parametrización de la distribución gamma (o X♪ ♪ .. ()k2,2){displaystyle Xsim Gamma left({frac {k}{2},2right)} utilizando la parametrización de escala de la distribución gamma) Donde k es un entero.
Debido a que la distribución exponencial es también un caso especial de la distribución gamma, también lo tenemos si X♪ ♪ χ χ 22{displaystyle Xsim chi ¿Qué?, entonces X♪ ♪ Gastos ()12){displaystyle Xsim operatorname {Exp} left({frac {1}right)} es una distribución exponencial.
La distribución Erlang es también un caso especial de la distribución gamma y por lo tanto también lo tenemos si X♪ ♪ χ χ k2{displaystyle Xsim chi _{k}^{2} incluso k{displaystyle {text{k}}}, entonces X{displaystyle {text{X}}} Erlang distribuido con parámetro de forma k/2{displaystyle {text{k}/2} y parámetro de escala 1/2{displaystyle 1/2}.
Ocurrencia y aplicaciones
La distribución de chi-cuadrado tiene numerosas aplicaciones en estadísticas inferenciales, por ejemplo, en pruebas de chi-cuadrado y en la estimación de varianzas. Entra en el problema de estimar la media de una población distribuida normalmente y el problema de estimar la pendiente de una línea de regresión a través de su papel en la distribución t de Student. Entra en todos los problemas de análisis de varianza a través de su función en la distribución F, que es la distribución del cociente de dos variables aleatorias independientes de chi-cuadrado, cada una dividida por sus respectivos grados de libertad.
Las siguientes son algunas de las situaciones más comunes en las que la distribución chi-cuadrado surge de una muestra con distribución gaussiana.
- si X1,...,Xn{displaystyle X_{1},... son i.i.d. N()μ μ ,σ σ 2){displaystyle N(musigma ^{2} variables al azar, entonces .. i=1n()Xi− − X̄ ̄ )2♪ ♪ σ σ 2χ χ n− − 12{displaystyle sum _{i=1}{n}(X_{i}-{overline {X}}^{2}sim sigma ^{2}chi ¿Qué? Donde X̄ ̄ =1n.. i=1nXi{displaystyle {fnK}= {fn} {fnK}}}} {fn}}} {fn}} {fn}} {fn}} {fn} {fn}} {fn}}} {fn}}}}}} {fn}} {fn}}}}}}}}}}}}}} { ¿Qué?.
- El siguiente cuadro muestra algunas estadísticas basadas en Xi♪ ♪ N()μ μ i,σ σ i2),i=1,...... ,k{displaystyle X_{i}sim N(mu _{i},sigma ¿Qué? variables aleatorias independientes que tienen distribuciones de probabilidad relacionadas con la distribución de chi-squared:
Nombre | Estadística |
---|---|
distribución de chi-squared | .. i=1k()Xi− − μ μ iσ σ i)2{displaystyle sum _{i=1}{k}left({frac {X_{i}-mu ¿Qué? - Sí. |
distribución no central de chi-squared | .. i=1k()Xiσ σ i)2{displaystyle sum _{i=1}{k}left({frac {X_{i}{sigma - Sí. |
distribución chi | .. i=1k()Xi− − μ μ iσ σ i)2{displaystyle {sqrt {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f {fnMicrosoft {f}fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}f}fnMicrosoft {fnMicrosoft {f}f}f}\f}fnfnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {fnMicrosoft {\fnf}\fnMicrosoft {f}fn ¿Por qué? {X_{i}-mu ¿Qué? - Sí. |
distribución de chi no central | .. i=1k()Xiσ σ i)2{displaystyle {sqrt {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f {fnMicrosoft {f}fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}f}fnMicrosoft {fnMicrosoft {f}f}f}\f}fnfnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {fnMicrosoft {\fnf}\fnMicrosoft {f}fn ¿Por qué? {X_{i}{sigma - Sí. |
La distribución de chi-cuadrado también se encuentra a menudo en imágenes de resonancia magnética.
Métodos computacionales
Tabla de valores χ2 frente a valores p
El valor p es la probabilidad de observar una estadística de prueba al menos como extrema en una distribución de chi-cuadrado. En consecuencia, dado que la función de distribución acumulativa (FDC) para los grados de libertad adecuados (gl) da la probabilidad de haber obtenido un valor menos extremo que este punto, restando la FDC valor de 1 da el valor p. Un valor p bajo, por debajo del nivel de significación elegido, indica significancia estadística, es decir, evidencia suficiente para rechazar la hipótesis nula. Un nivel de significancia de 0.05 se usa a menudo como el punto de corte entre resultados significativos y no significativos.
El cuadro que figura a continuación ofrece una serie de p-valores iguales a χ χ 2{displaystyle chi ^{2} por los primeros 10 grados de libertad.
Grados de libertad (df) | χ χ 2{displaystyle chi ^{2} valor | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0,004 | 0,02 | 0,06 | 0.15 | 0.46 | 1.07 | 1.64 | 2.71 | 3.84 | 6.63 | 10.83 |
2 | 0.10 | 0.21 | 0.45 | 0.71 | 1.39 | 2.41 | 3.22 | 4.61 | 5.99 | 9.21 | 13.82 |
3 | 0,355 | 0,58 | 1.01 | 1.42 | 2.37 | 3.66 | 4.64 | 6.25 | 7.81 | 11.34 | 16.27 |
4 | 0.71 | 1.06 | 1.65 | 2.20 | 3.36 | 4.88 | 5.99 | 7.78 | 9.49 | 13.28 | 18.47 |
5 | 1.14 | 1.61 | 2.34 | 3.00 | 4.35 | 6.06 | 7.29 | 9.24 | 11.07 | 15.09 | 20.52 |
6 | 1.63 | 2.20 | 3.07 | 3.83 | 5.35 | 7.23 | 8.56 | 10.64 | 12.59 | 16.81 | 22.46 |
7 | 2.17 | 2.83 | 3.82 | 4.67 | 6.35 | 8.38 | 9.80 | 12.02 | 14.07 | 18.48 | 24.32 |
8 | 2.73 | 3.49 | 4.59 | 5.53 | 7.34 | 9.52 | 11.03 | 13.36 | 15.51 | 20.09 | 26.12 |
9 | 3.32 | 4.17 | 5.38 | 6.39 | 8.34 | 10.66 | 12.24 | 14.68 | 16.92 | 21.67 | 27.88 |
10 | 3.94 | 4.87 | 6.18 | 7.27 | 9.34 | 11.78 | 13.44 | 15.99 | 18.31 | 23.21 | 29.59 |
p-valor (probabilidad) | 0.95 | 0.90 | 0.80 | 0 | 0,50 | 0.30 | 0.20 | 0.10 | 0,05 | 0,01 | 0,001 |
Estos valores se pueden calcular evaluando la función cuantil (también conocida como "FDC inversa" o "ICDF") de la distribución chi-cuadrado; mi. ej., el χ2 ICDF para p = 0.05 y df = 7 produce 2,1673 ≈ 2,17 como en la tabla anterior, notando que 1 – p es el valor p de la tabla.
Historia
Esta distribución fue descrita por primera vez por el geodésico y estadístico alemán Friedrich Robert Helmert en artículos de 1875–6, donde calculó la distribución muestral de la varianza muestral de una población normal. Así, en alemán esto se conocía tradicionalmente como Helmert'sche ("Helmertian") o "distribución de Helmert".
La distribución fue redescubierta de forma independiente por el matemático inglés Karl Pearson en el contexto de la bondad de ajuste, para lo cual desarrolló su prueba chi-cuadrado de Pearson, publicada en 1900, con una tabla de valores calculada publicada en (Elderton 1902), recopilado en (Pearson 1914, pp. xxxi–xxxiii, 26–28, Table XII). El nombre "chi-cuadrado" deriva en última instancia de la abreviatura de Pearson para el exponente en una distribución normal multivariante con la letra griega Chi, escribiendo −½χ2 para lo que aparecería en la notación moderna como −½xTΣ−1x (siendo Σ la matriz de covarianza). Sin embargo, la idea de una familia de "distribuciones de chi-cuadrado" no se debe a Pearson, sino que surgió como un desarrollo posterior debido a Fisher en la década de 1920.
Contenido relacionado
Heinz von Foerster
Hiparco
Independencia condicional