Distribución de Cauchy

Compartir Imprimir Citar

La distribución de Cauchy, llamada así por Augustin Cauchy, es una distribución de probabilidad continua. También se conoce, especialmente entre los físicos, como distribución de Lorentz (después de Hendrik Lorentz), distribución de Cauchy-Lorentz, función de Lorentz (ian) o distribución de Breit-Wigner. La distribución de Cauchy f(x;x_{0},gamma)es la distribución de la intersección x de un rayo que sale (x_{0},gamma)con un ángulo uniformemente distribuido. También es la distribución del cociente de dos variables aleatorias independientes normalmente distribuidas con media cero.

La distribución de Cauchy se usa a menudo en estadística como el ejemplo canónico de una distribución "patológica" ya que tanto su valor esperado como su varianza no están definidos (pero consulte § Explicación de momentos indefinidos a continuación). La distribución de Cauchy no tiene momentos finitos de orden mayor o igual a uno; sólo existen momentos absolutos fraccionarios. La distribución de Cauchy no tiene función generadora de momentos.

En matemáticas, está estrechamente relacionado con el núcleo de Poisson, que es la solución fundamental de la ecuación de Laplace en el semiplano superior.

Es una de las pocas distribuciones que es estable y tiene una función de densidad de probabilidad que se puede expresar analíticamente, las otras son la distribución normal y la distribución de Lévy.

Historia

Una función con la forma de la función de densidad de la distribución de Cauchy fue estudiada geométricamente por Fermat en 1659, y más tarde fue conocida como la bruja de Agnesi, después de que Agnesi la incluyera como ejemplo en su libro de texto de cálculo de 1748. A pesar de su nombre, el primer análisis explícito de las propiedades de la distribución de Cauchy fue publicado por el matemático francés Poisson en 1824, y Cauchy solo se asoció con él durante una controversia académica en 1853. Poisson señaló que si la media de las observaciones después de tal se tomó la distribución, el error mediono convergieron a ningún número finito. Como tal, el uso de Laplace del teorema del límite central con tal distribución fue inapropiado, ya que asumió una media y una varianza finitas. A pesar de esto, Poisson no le dio importancia al tema, a diferencia de Bienaymé, quien entablaría una larga disputa con Cauchy sobre el asunto.

Caracterización

Función de densidad de probabilidad

La distribución de Cauchy tiene la función de densidad de probabilidad (PDF)f(x;x_{0},gamma)={frac {1}{pi gamma left[1+left({frac {x-x_{0}}{gamma }}right)^{2}right]}}={1 over pi gamma }left[{gamma ^{2} over (x-x_{0})^{2}+gamma ^{2 }}Correcto],

donde x_{0}es el parámetro de ubicación, que especifica la ubicación del pico de la distribución, y gamaes el parámetro de escala que especifica la mitad del ancho en la mitad del máximo (HWHM), alternativamente, 2gammaes el ancho completo en la mitad del máximo (FWHM). gamatambién es igual a la mitad del rango intercuartílico y a veces se le llama error probable. Augustin-Louis Cauchy explotó una función de densidad de este tipo en 1827 con un parámetro de escala infinitesimal, definiendo lo que ahora se llamaría una función delta de Dirac.

El valor máximo o amplitud de la PDF de Cauchy es {displaystyle {frac {1}{pi gamma}}}, ubicado en x=x_0.

A veces es conveniente expresar la PDF en términos del parámetro complejo{ estilo de visualización  psi = x_ {0} + i  gamma}{displaystyle f(x;psi)={frac {1}{pi }},{textrm {Im}}left({frac {1}{x-psi }}right) ={frac {1}{pi }},{textrm {Re}}left({frac {-i}{x-psi }}right)}

El caso especial cuando x_{0}=0y gamma =1se denomina distribución de Cauchy estándar con la función de densidad de probabilidadf(x; 0,1) = frac{1}{pi (1 + x^2)}.  !

En física, a menudo se usa una función lorentziana de tres parámetros:f(x; x_0,gamma,I) = frac{I}{left[1 + left(frac{x-x_0}{gamma}right)^2right]} = I left [ { gamma^2 over (x - x_0)^2 + gamma^2 } right],

donde yoes la altura del pico. La función lorentziana de tres parámetros indicada no es, en general, una función de densidad de probabilidad, ya que no integra a 1, excepto en el caso especial donde {displaystyle I={frac {1}{pi gamma}}.!}

Función de distribución acumulativa

La función de distribución acumulada de la distribución de Cauchy es:F(x; x_0,gamma)=frac{1}{pi} arctanleft(frac{x-x_0}{gamma}right)+frac{1}{2}

y la función cuantil (cdf inversa) de la distribución de Cauchy esQ(p; x_0,gamma) = x_0 + gamma,tanleft[pileft(p-tfrac{1}{2}right)right].

De ello se deduce que el primer y el tercer cuartil son { estilo de visualización (x_{0}-gamma, x_{0}+gamma)}, y por lo tanto el rango intercuartílico es 2gamma.

Para la distribución estándar, la función de distribución acumulativa se simplifica a la función arcotangente arctan(x):F(x; 0,1)=frac{1}{pi} arctanleft(xright)+frac{1}{2}

Entropía

La entropía de la distribución de Cauchy viene dada por:{displaystyle {begin{alineado}H(gamma)&=-int _{-infty }^{infty }f(x;x_{0},gamma)log(f(x;x_ {0},gamma)),dx\[6pt]&=log(4pi gamma)end{alineado}}}

La derivada de la función cuantil, la función de densidad cuantil, para la distribución de Cauchy es:{displaystyle Q'(p;gamma)=gamma ,pi ,{sec }^{2}left[pi left(p-{tfrac {1}{2}}right)Correcto].!}

La entropía diferencial de una distribución se puede definir en términos de su densidad cuantil, específicamente:{displaystyle H(gamma)=int _{0}^{1}log ,(Q'(p;gamma)),mathrm {d} p=log(4pi gamma)}

La distribución de Cauchy es la distribución de probabilidad de máxima entropía para una variable aleatoria Xpara la cual{displaystyle operatorname {E} [log(1+(X-x_{0})^{2}/gamma ^{2})]=log 4}

o, alternativamente, para una variable aleatoria Xpara la cual{displaystyle operatorname {E} [log(1+(X-x_{0})^{2})]=2log(1+gamma).}

En su forma estándar, es la distribución de probabilidad de máxima entropía para una variable aleatoria Xpara la cual{displaystyle operatorname {E} !left[ln(1+X^{2})right]=ln 4.}

Divergencia Kullback-Leibler

La divergencia de Kullback-Leibler entre dos distribuciones de Cauchy tiene la siguiente fórmula simétrica de forma cerrada:{displaystyle mathrm {KL} left(p_{x_{0,1},gamma _{1}}:p_{x_{0,2},gamma _{2}}right)=log {frac {left(gamma_{1}+gamma_{2}right)^{2}+left(x_{0,1}-x_{0,2}right)^{2 }}{4gamma _{1}gamma _{2}}}.}

Cualquier f-divergencia entre dos distribuciones de Cauchy es simétrica y puede expresarse como una función de la divergencia chi-cuadrado. Están disponibles expresiones de forma cerrada para la variación total, la divergencia de Jensen-Shannon, la distancia de Hellinger, etc.

Propiedades

La distribución de Cauchy es un ejemplo de una distribución que no tiene media, varianza o momentos superiores definidos. Su moda y mediana están bien definidas y ambas son iguales a x_{0}.

Cuando tuy Vson dos variables aleatorias independientes normalmente distribuidas con valor esperado 0 y varianza 1, entonces la relación { estilo de visualización U/V}tiene la distribución estándar de Cauchy.

Si Sigmaes una pveces pmatriz de covarianza semidefinida positiva con entradas diagonales estrictamente positivas, entonces para independiente e idénticamente distribuida { estilo de visualización X, Y  sim N (0,  Sigma)}y cualquier vector aleatorio pagsindependiente wde Xy Ytal que {displaystyle w_{1}+cdots +w_{p}=1}y {displaystyle w_{i}geq 0,i=1,ldots,p,}(que define una distribución categórica) se cumple que{displaystyle sum _{j=1}^{p}w_{j}{frac {X_{j}}{Y_{j}}}sim mathrm {Cauchy} (0,1).}

Si X_1, ldots, X_nson variables aleatorias independientes e idénticamente distribuidas, cada una con una distribución de Cauchy estándar, entonces la media muestral { estilo de visualización (X_{1}+cdots +X_{n})/n}tiene la misma distribución de Cauchy estándar. Para ver que esto es cierto, calcule la función característica de la media muestral:{displaystyle varphi _{overline {X}}(t)=mathrm {E} left[e^{i{overline {X}}t}right]}

donde {sobrelínea {X}}es la media muestral. Este ejemplo sirve para mostrar que la condición de varianza finita en el teorema del límite central no se puede descartar. También es un ejemplo de una versión más generalizada del teorema del límite central que es característico de todas las distribuciones estables, de las cuales la distribución de Cauchy es un caso especial.

La distribución de Cauchy es una distribución de probabilidad infinitamente divisible. También es una distribución estrictamente estable.

La distribución estándar de Cauchy coincide con la distribución t de Student con un grado de libertad.

Como todas las distribuciones estables, la familia de ubicación-escala a la que pertenece la distribución de Cauchy se cierra bajo transformaciones lineales con coeficientes reales. Además, la distribución de Cauchy se cierra bajo transformaciones fraccionarias lineales con coeficientes reales. A este respecto, véase también la parametrización de las distribuciones de Cauchy de McCullagh.

Función característica

Denotemos Xuna variable aleatoria distribuida de Cauchy. La función característica de la distribución de Cauchy viene dada por{displaystyle varphi _{X}(t)=operatorname {E} left[e^{iXt}right]=int_{-infty}^{infty}f(x;x_{0 },gamma)e^{ixt},dx=e^{ix_{0}t-gamma |t|}.}

que es solo la transformada de Fourier de la densidad de probabilidad. La densidad de probabilidad original se puede expresar en términos de la función característica, esencialmente mediante el uso de la transformada inversa de Fourier:{displaystyle f(x;x_{0},gamma)={frac {1}{2pi }}int _{-infty }^{infty }varphi _{X}(t; x_{0},gamma)e^{-ixt},dt!}

El momento n de una distribución es la derivada nt=0 de la función característica evaluada en. Obsérvese que la función característica no es derivable en el origen: esto corresponde a que la distribución de Cauchy no tiene momentos bien definidos superiores al momento cero.

Comparación con la distribución normal

En comparación con la distribución normal, la función de densidad de Cauchy tiene un pico más alto y colas más bajas. Un ejemplo se muestra en las dos figuras añadidas aquí.

La figura de la izquierda muestra la función de densidad de probabilidad de Cauchy ajustada a un histograma observado. El pico de la función es más alto que el pico del histograma, mientras que las colas son más bajas que las del histograma.La figura de la derecha muestra la función de densidad de probabilidad normal ajustada al mismo histograma observado. El pico de la función es más bajo que el pico del histograma.Esto ilustra la afirmación anterior.

Explicación de momentos indefinidos

Significar

Si una distribución de probabilidad tiene una función de densidad f(x), entonces la media, si existe, está dada por

{displaystyle int _{-infty}^{infty}xf(x),dx.} (1)

Podemos evaluar esta integral impropia de dos lados calculando la suma de dos integrales impropias de un lado. Eso es,

{displaystyle int _{-infty}^{a}xf(x),dx+int _{a}^{infty}xf(x),dx} (2)

para un número real arbitrario a.

Para que exista la integral (incluso como un valor infinito), al menos uno de los términos de esta suma debe ser finito, o ambos deben ser infinitos y tener el mismo signo. Pero en el caso de la distribución de Cauchy, ambos términos en esta suma (2) son infinitos y tienen signo opuesto. Por lo tanto, (1) no está definido y, por lo tanto, tampoco lo está la media.

Tenga en cuenta que el valor principal de Cauchy de la media de la distribución de Cauchy es

{displaystyle lim _{ato infty}int _{-a}^{a}xf(x),dx}

que es cero. Por otro lado, la integral relacionada

{displaystyle lim _{ato infty}int _{-2a}^{a}xf(x),dx}

no es cero, como se puede ver al calcular la integral. Esto nuevamente muestra que la media (1) no puede existir.

Varios resultados de la teoría de la probabilidad sobre los valores esperados, como la ley fuerte de los grandes números, no se cumplen para la distribución de Cauchy.

Momentos más pequeños

Los momentos absolutos para { estilo de visualización p  en (-1,1)}están definidos. porque {displaystyle Xsim mathrm {Cauchy} (0,gamma)}tenemos{displaystyle operatorname {E} [|X|^{p}]=gamma ^{p}mathrm {seg} (pi p/2).}

Momentos superiores

La distribución de Cauchy no tiene momentos finitos de ningún orden. Algunos de los momentos brutos superiores existen y tienen un valor de infinito, por ejemplo, el segundo momento bruto:{displaystyle {begin{alineado}operatorname {E} [X^{2}]&propto int _{-infty }^{infty }{frac {x^{2}}{1+ x^{2}}},dx=int _{-infty }^{infty }1-{frac {1}{1+x^{2}}},dx\[8pt] &=int _{-infty }^{infty }dx-int _{-infty }^{infty }{frac {1}{1+x^{2}}},dx= int _{-infty}^{infty}dx-pi =infty.end{alineado}}}

Al reorganizar la fórmula, se puede ver que el segundo momento es esencialmente la integral infinita de una constante (aquí 1). Los momentos brutos de mayor potencia uniforme también se evaluarán hasta el infinito. Sin embargo, los momentos brutos de potencia impar no están definidos, lo que es claramente diferente de existir con el valor del infinito. Los momentos brutos de potencia impar no están definidos porque sus valores son esencialmente equivalentes ainfty -inftyya que las dos mitades de la integral divergen y tienen signos opuestos. El primer momento en bruto es el medio, que, siendo impar, no existe. (Consulte también la discusión anterior sobre esto). Esto, a su vez, significa que todos los momentos centrales y los momentos estandarizados no están definidos, ya que todos se basan en la media. La varianza, que es el segundo momento central, tampoco existe (a pesar de que el segundo momento en bruto existe con el valor infinito).

Los resultados para los momentos superiores se derivan de la desigualdad de Hölder, que implica que los momentos superiores (o la mitad de los momentos) divergen si los inferiores lo hacen.

Momentos de distribuciones truncadas

Considere la distribución truncada definida al restringir la distribución de Cauchy estándar al intervalo [−10, 10 ]. Tal distribución truncada tiene todos los momentos (y el teorema del límite central se aplica a las observaciones iid de ella); sin embargo, para casi todos los propósitos prácticos se comporta como una distribución de Cauchy.

Estimación de parámetros

Debido a que los parámetros de la distribución de Cauchy no se corresponden con una media y una varianza, intentar estimar los parámetros de la distribución de Cauchy utilizando una media muestral y una varianza muestral no tendrá éxito. Por ejemplo, si se toma una muestra iid de tamaño n de una distribución de Cauchy, se puede calcular la media de la muestra como:{displaystyle {bar {x}}={frac {1}{n}}sum _{i=1}^{n}x_{i}}

Aunque los valores de la muestra x_{yo}se concentrarán alrededor del valor central x_{0}, la media de la muestra se volverá cada vez más variable a medida que se tomen más observaciones, debido a la mayor probabilidad de encontrar puntos de muestra con un valor absoluto grande. De hecho, la distribución de la media muestral será igual a la distribución de las propias observaciones; es decir, la media muestral de una muestra grande no es mejor (o peor) un estimador x_{0}que cualquier observación individual de la muestra. De manera similar, calcular la varianza de la muestra dará como resultado valores que crecen a medida que se toman más observaciones.

Por lo tanto, se necesitan medios más robustos para estimar el valor central x_{0}y el parámetro de escala. gamaUn método simple es tomar el valor de la mediana de la muestra como estimador de x_{0}y la mitad del rango intercuartílico de la muestra como estimador de gama. Se han desarrollado otros métodos más precisos y robustos. Por ejemplo, la media truncada del 24% medio de las estadísticas de orden de la muestra produce una estimación x_{0}que es más eficiente que usar la mediana de la muestra o la media de la muestra completa. Sin embargo, debido a las colas anchas de la distribución de Cauchy, la eficiencia del estimador disminuye si se usa más del 24% de la muestra.

La máxima verosimilitud también se puede utilizar para estimar los parámetros x_{0}y gama. Sin embargo, esto tiende a ser complicado por el hecho de que requiere encontrar las raíces de un polinomio de alto grado, y puede haber múltiples raíces que representen máximos locales. Además, mientras que el estimador de máxima verosimilitud es asintóticamente eficiente, es relativamente ineficiente para muestras pequeñas. La función logarítmica de verosimilitud para la distribución de Cauchy para el tamaño de la muestra nortees:{displaystyle {hat {ell }}(x_{1},dotsc,x_{n}mid !x_{0},gamma)=-nlog(gamma pi)-sum _{i=1}^{n}log left(1+left({frac {x_{i}-x_{0}}{gamma }}right)^{2}right)}

Maximizar la función de verosimilitud logarítmica con respecto a x_{0}y gamatomando la primera derivada produce el siguiente sistema de ecuaciones:{displaystyle {frac {dell}{dx_{0}}}=sum _{i=1}^{n}{frac {2(x_{i}-x_{0})}{ gamma ^{2}+left(x_{i}-!x_{0}right)^{2}}}=0}{displaystyle {frac {dell}{dgamma}}=sum _{i=1}^{n}{frac {2left(x_{i}-x_{0}right) ^{2}}{gamma (gamma ^{2}+left(x_{i}-x_{0}right)^{2})}}-{frac {n}{gamma }} =0}

Tenga en cuenta que{displaystyle sum _{i=1}^{n}{frac {left(x_{i}-x_{0}right)^{2}}{gamma ^{2}+left(x_{i}-x_{0}right)^{2}}}}

es una función monótona gamay que la solución gamadebe satisfacermin |x_i-x_0|le gammale max |x_i-x_0|.

Resolver solo por x_{0}requiere resolver un polinomio de grado 2n-1, y resolver solo por ,!gamarequiere resolver un polinomio de grado 2n. Por lo tanto, ya sea que se resuelva para un parámetro o para ambos parámetros simultáneamente, generalmente se requiere una solución numérica en una computadora. El beneficio de la estimación de máxima verosimilitud es la eficiencia asintótica; estimar x_{0}usando la mediana de la muestra es solo un 81% tan asintóticamente eficiente como estimar x_{0}por máxima verosimilitud. La media de la muestra truncada que utiliza las estadísticas del orden medio del 24% es aproximadamente un 88% tan asintóticamente eficiente como un estimador de x_{0}la estimación de máxima verosimilitud.Cuando se usa el método de Newton para encontrar la solución para la estimación de máxima verosimilitud, las estadísticas de orden medio del 24% se pueden usar como una solución inicial para x_{0}.

La forma se puede estimar utilizando la mediana de los valores absolutos, ya que para las variables de ubicación 0 de Cauchy {displaystyle Xsim mathrm {Cauchy} (0,gamma)}, el {displaystyle mathrm {mediana} (|X|)=gamma}parámetro de forma.

Distribución de Cauchy multivariante

Se dice que un vector aleatorio {displaystyle X=(X_{1},ldots,X_{k})^{T}}tiene la distribución de Cauchy multivariante si cada combinación lineal de sus componentes {displaystyle Y=a_{1}X_{1}+cdots +a_{k}X_{k}}tiene una distribución de Cauchy. Es decir, para cualquier vector constante {displaystyle aen mathbb {R} ^{k}}, la variable aleatoria {displaystyle Y=a^{T}X}debe tener una distribución de Cauchy univariada. La función característica de una distribución de Cauchy multivariada viene dada por:{displaystyle varphi _{X}(t)=e^{ix_{0}(t)-gamma (t)},!}

donde x_0(t)y gamma (t)son funciones reales con x_0(t)una función homogénea de grado uno y gamma (t)una función homogénea positiva de grado uno. Más formalmente:x_0(en) = ax_0(t),gamma (at) = |a|gamma (t),

tpara todos

Un ejemplo de una distribución de Cauchy bivariada puede ser dado por:{displaystyle f(x,y;x_{0},y_{0},gamma)={1 over 2pi }left[{gamma over ((x-x_{0})^{ 2}+(y-y_{0})^{2}+gamma ^{2})^{3/2}}derecha].}

Tenga en cuenta que en este ejemplo, aunque la covarianza entre Xy yes 0, Xy yno son estadísticamente independientes.

También podemos escribir esta fórmula para variable compleja. Entonces la función de densidad de probabilidad del cauchy complejo es:{displaystyle f(z;z_{0},gamma)={1 over 2pi }left[{gamma over (|z-z_{0}|^{2}+gamma ^{ 2})^{3/2}}derecha].}

De manera análoga a la densidad univariante, la densidad de Cauchy multidimensional también se relaciona con la distribución de Student multivariante. Son equivalentes cuando el parámetro grados de libertad es igual a uno. La densidad de una kdimensión Distribución de Student con un grado de libertad se convierte en:f({mathbf x}; {mathbfmu},{mathbfSigma}, k)= frac{Gammaleft(frac{1+k}{2}right)}{Gamma (frac{1}{2})pi^{frac{k}{2}}left|{mathbfSigma}right|^{frac{1}{2}}left[1 +({mathbf x}-{mathbfmu})^T{mathbfSigma}^{-1}({mathbf x}-{mathbfmu})right]^{frac{ 1+k{2}}}.

Las propiedades y detalles de esta densidad se pueden obtener tomándola como un caso particular de la densidad de Student multivariada.

Propiedades de transformación

Medida de gravamen

La distribución de Cauchy es la distribución estable del índice 1. La representación de Lévy-Khintchine de tal distribución estable de parámetros gamaviene dada {displaystyle Xsim operatorname {Estable} (gamma,0,0),}por:{displaystyle operatorname {E} left(e^{ixX}right)=exp left(int _{mathbb {R} }(e^{ixy}-1)Pi _{gamma }(dy)right)}

dónde{displaystyle Pi _{gamma }(dy)=left(c_{1,gamma }{frac {1}{y^{1+gamma }}}1_{left{y>0 right}}+c_{2,gamma }{frac {1}{|y|^{1+gamma }}}1_{left{y<0right}}right) dy}

y {displaystyle c_{1,gamma },c_{2,gamma }}puede expresarse explícitamente. En el caso gamma =1de la distribución de Cauchy, se tiene {displaystyle c_{1,gamma }=c_{2,gamma }}.

Esta última representación es consecuencia de la fórmula{displaystyle pi |x|=operatorname {PV} int _{mathbb {R} setminus lbrace 0rbrace }(1-e^{ixy}),{frac {dy}{y ^{2}}}}

Distribuciones relacionadas

Distribución relativista de Breit-Wigner

En física nuclear y de partículas, el perfil de energía de una resonancia se describe mediante la distribución relativista de Breit-Wigner, mientras que la distribución de Cauchy es la distribución (no relativista) de Breit-Wigner.

Ocurrencia y aplicaciones