Distribución de cola pesada
En teoría de la probabilidad, las distribuciones de cola pesada son distribuciones de probabilidad cuyas colas no están acotadas exponencialmente: es decir, tienen colas más pesadas que la distribución exponencial. En muchas aplicaciones, lo que interesa es la cola derecha de la distribución, pero una distribución puede tener una cola izquierda pesada o ambas colas pueden ser pesadas.
Existen tres subclases importantes de distribuciones de cola pesada: las distribuciones de cola gruesa, las distribuciones de cola larga y las distribuciones subexponenciales. En la práctica, todas las distribuciones de cola pesada que se utilizan comúnmente pertenecen a la clase subexponencial, introducida por Jozef Teugels.
Aún existe cierta discrepancia sobre el uso del término de cola pesada. Existen otras dos definiciones en uso. Algunos autores usan el término para referirse a aquellas distribuciones que no tienen todos sus momentos de potencia finitos; y otros, a aquellas distribuciones que no tienen una varianza finita. La definición dada en este artículo es la más general en uso e incluye todas las distribuciones abarcadas por las definiciones alternativas, así como aquellas distribuciones como la log-normal que poseen todos sus momentos de potencia, pero que generalmente se consideran de cola pesada. (En ocasiones, se usa de cola pesada para cualquier distribución que tenga colas más pesadas que la distribución normal).
Definiciones
Definición de distribución de cola pesada
Se dice que la distribución de una variable aleatoria X con función de distribución F tiene una cola pesada (derecha) si la función generadora de momentos de X, MX(t), es infinita para todo t > 0.
Eso significa
Esto también está escrito en términos de la función de distribución de cola
como
Definición de distribución de cola larga
Se dice que la distribución de una variable aleatoria X con función de distribución F tiene una cola derecha larga si para todo t > 0,
o equivalente
Esto tiene la interpretación intuitiva de que, para una cantidad distribuida con cola larga y cola derecha, si la cantidad con cola larga excede un nivel alto, la probabilidad de que exceda cualquier otro nivel superior se acerca a 1.
Todas las distribuciones de cola larga son de cola pesada, pero lo inverso es falso y es posible construir distribuciones de cola pesada que no sean de cola larga.
Distribución subexponencial
La subexponencialidad se define en términos de convoluciones de distribuciones de probabilidad. Para dos variables independientes, distribuidas idénticamente con una función de distribución común , la convolución de con sí mismo, escrito y llamada plaza de la convolución, se define usando la integración Lebesgue-Stieltjes por:
y el n- converso se define inductivamente por la regla:
Función de distribución de la cola se define como .
Distribución en la media línea positiva es subexponencial si
Esto implica que, para cualquier ,
La interpretación probabilística de esto es que, por una suma de variables aleatorias independientes con distribución común ,
Esto se conoce a menudo como el principio del gran salto único o principio de catástrofe.
Distribución en toda la línea real es subexponencial si la distribución Lo es. Aquí. es la función indicadora de la media línea positiva. Alternativamente, una variable aleatoria apoyado en la línea real es subexponencial si y sólo si es subexponencial.
Todas las distribuciones subexponenciales son de cola larga, pero se pueden construir ejemplos de distribuciones de cola larga que no sean subexponenciales.
Distribución común de cola pesada
Todas las distribuciones de cola pesada que se utilizan habitualmente son subexponenciales.
Entre los que tienen una sola cola se encuentran:
- la distribución de Pareto;
- la distribución Log-normal;
- la distribución de Lévy;
- la distribución Weibull con parámetro de forma superior a 0 pero inferior a 1;
- la distribución Burr;
- la distribución log-logista;
- la distribución log-gamma;
- la distribución Fréchet;
- q-Gaussian distribution;
- la distribución log-Cauchy, a veces describió como tener una "caída súper pesada" porque exhibe decaimiento logarítmico produciendo una cola más pesada que la distribución de Pareto.
Los que tienen dos colas incluyen:
- La distribución Cauchy, en sí misma un caso especial de la distribución estable y la distribución t;
- La familia de distribuciones estables, excepto el caso especial de la distribución normal dentro de esa familia. Algunas distribuciones estables son unilaterales (o soportadas por una línea media), véase por ejemplo. Distribución ligera. Véase también modelos financieros con distribuciones de cola larga y agrupación de volatilidad.
- La distribución t.
- La distribución de cascadas normales.
Relación con las distribuciones de cola de grasa
Una distribución de cola de grasa es una distribución para la cual la función de densidad de probabilidad, para x grande, va a cero como potencia . Dado que tal poder está siempre ligado por la función de densidad de probabilidad de una distribución exponencial, las distribuciones de cola de grasa son siempre de cola pesada. Algunas distribuciones, sin embargo, tienen una cola que va a cero más lento que una función exponencial (que significa que son de cola pesada), pero más rápido que un poder (que significa que no son de cola grasa). Un ejemplo es la distribución log-normal. Muchas otras distribuciones de cola pesada, como la distribución logística y Pareto, son, sin embargo, también de cola grasa.
Estimación del índice de cola
Existen enfoques paramétricos y no paramétricos para el problema de la estimación del índice de cola.
Para estimar el índice de cola mediante el método paramétrico, algunos autores emplean la distribución GEV o la distribución de Pareto; pueden aplicar el estimador de máxima verosimilitud (MLE).
Estimador del índice de cola de Pickand
Con una secuencia aleatoria de función independiente y de misma densidad , el dominio de atracción máxima de la densidad de valor extremo generalizada , donde . Si y , entonces el Pickands estimación del índice de cola
Donde . Este estimador converge en probabilidad de .
Estimador del índice de cola de Hill
Vamos. ser una secuencia de variables aleatorias independientes y distribuidas idénticamente con función de distribución , el dominio máximo de atracción de la distribución de valor extremo generalizado , donde . La ruta de la muestra es Donde es el tamaño de la muestra. Si es una secuencia de orden intermedio, es decir. , y , entonces el estimador de Hill-index es
Donde es - la estadística del orden . Este estimador converge en probabilidad de , y es asintotípicamente normal proporcionado se restringe sobre la base de una propiedad de variación regular de orden superior . La consistencia y la normalidad asintotica se extienden a una gran clase de secuencias dependientes y heterogéneas, independientemente de si se observa, o datos residuales o filtrados computados de una gran clase de modelos y estimadores, incluyendo modelos y modelos mal especificados con errores dependientes. Tenga en cuenta que tanto los estimadores de los índices de cola de Pickand y Hill suelen hacer uso de logaritmo de las estadísticas de pedido.
Estimador de ratio del índice de cola
El estimador de proporción (estimador RE) del índice de cola fue introducido por Goldie y Smith. Se construye de manera similar al estimador de Hill, pero utiliza un "parámetro de ajuste" no aleatorio.
Puede encontrarse una comparación entre los estimadores de tipo Hill y de tipo RE en Novak.
Software
- aest Archivado 2020-11-25 en la máquina Wayback, herramienta C para estimar el índice de cola pesada.
Estimación de densidad de cola pesada
Markovich presentó enfoques no paramétricos para estimar funciones de densidad de probabilidad de cola pesada y superpesada. Estos enfoques se basan en el ancho de banda variable y en estimadores kernel de cola larga; en la transformación preliminar de los datos a una nueva variable aleatoria en intervalos finitos o infinitos, lo que es más conveniente para la estimación y luego la transformación inversa de la estimación de densidad obtenida; y el "enfoque de unión de piezas" que proporciona un cierto modelo paramétrico para la cola de la densidad y un modelo no paramétrico para aproximar la moda de la densidad. Los estimadores no paramétricos requieren una selección apropiada de parámetros de ajuste (suavizado), como un ancho de banda de los estimadores kernel y el ancho de bin del histograma. Los métodos basados en datos bien conocidos de dicha selección son una validación cruzada y sus modificaciones, métodos basados en la minimización del error cuadrático medio (MSE) y su límite asintótico y sus límites superiores. Un método de discrepancia que utiliza estadísticas no paramétricas conocidas como las de Kolmogorov-Smirnov, von Mises y Anderson-Darling como métrica en el espacio de funciones de distribución (gl) y cuantiles de las estadísticas posteriores como una incertidumbre conocida o un valor de discrepancia se puede encontrar en. Bootstrap es otra herramienta para encontrar parámetros de suavizado utilizando aproximaciones de MSE desconocido mediante diferentes esquemas de selección de remuestreos, véase, por ejemplo,
Véase también
- Distribución Leptokurtic
- Distribución generalizada del valor extremo
- Distribución generalizada de los padres
- Mástil
- Long tail
- Derecho de poder
- Siete estados de azar
- Distribución por cola de grasa
- Distribución de Taleb y distribución de Santo Grial
Referencias
- ^ a b c Asmussen, S. R. (2003). "Steady-State Properties of GI/G/1". Probabilidad y colas aplicadas. Modelo estocástico y probabilidad aplicada. Vol. 51. pp. 266–301. doi:10.1007/0-387-21525-5_10. ISBN 978-0-387-00211-8.
- ^ a b Teugels, Jozef L. (1975). "La clase de distribuciones subexponenciales". Anales de probabilidad. 3 (6). Universidad de Louvain. doi:10.1214/aop/1176996225. Retrieved 7 de abril 2019.
- ^ Rolski, Schmidli, Scmidt, Teugels, Procesos estocásticos para seguros y finanzas, 1999
- ^ S. Foss, D. Korshunov, S. Zachary, Introducción a las distribuciones subexponenciales y de carga pesada, Springer Science & Business Media, 21 mayo 2013
- ^ Chistyakov, V. P. (1964). "A Theorem on Sums of Independent Positive Random Variables and Its Applications to Branching Random Processes". ResearchGate. Retrieved 7 de abril 2019.
- ^ a b c d e Embrechts P.; Klueppelberg C.; Mikosch T. (1997). Modelización de eventos extremos para seguros y finanzas. Modelo estocástico y probabilidad aplicada. Vol. 33. Berlín: Springer. doi:10.1007/978-3-642-33483-2. ISBN 978-3-642-08242-9.
- ^ Foss, S.; Konstantopoulos, T.; Zachary, S. (2007). "Tiempo Descreto y Contínuo Camina aleatoriamente con Incrementos Pesados" (PDF). Journal of Theoretical Probability. 20 (3): 581. arXiv:matemáticas. CiteSeerX 10.1.1.210.1699. doi:10.1007/s10959-007-0081-2. S2CID 3047753.
- ^ Wierman, Adam (9 de enero de 2014). "Catastrophes, Conspiracies, and Subexponential Distributions (Part III)". Rigor + blog de relevancia. RSRG, Caltech. Retrieved 9 de enero 2014.
- ^ Willekens, E. (1986). "Subexponencialidad en la línea real". Technical Report. K.U. Leuven.
- ^ Falk, M., Hüsler, J. " Reiss, R. (2010). Leyes de números pequeños: eventos extremos y graves. Springer. p. 80. ISBN 978-3-0348-0008-2.
{{cite book}}
: CS1 maint: múltiples nombres: lista de autores (link) - ^ Alves, M.I.F., de Haan, L. ' Neves, C. (10 de marzo de 2006). "Inferencia estadística para distribuciones pesadas y súper pesadas" (PDF). Archivado desde el original (PDF) el 23 de junio de 2007. Retrieved 1 de noviembre 2011.
{{cite web}}
: CS1 maint: múltiples nombres: lista de autores (link) - ^ John P. Nolan (2009). "Distribuciones estables: modelos para datos a medida pesada" (PDF). Archivado desde el original (PDF) en 2011-07-17. Retrieved 2009-02-21.
- ^ Stephen Lihn (2009). "Skew Lognormal Cascade Distribution". Archivado desde el original el 30 de marzo de 2014. Retrieved 2009-06-12.
- ^ a b Novak S.Y. (2011). Métodos de valor extremo con aplicaciones para financiar. CRC. ISBN 978-1-43983-574-6.
- ^ a b Pickands III, James (Jan 1975). "Inferencia estadística usando estadísticas de pedidos extremos". Los Anales de Estadística. 3 (1): 119–131. doi:10.1214/aos/1176343003. JSTOR 2958083.
- ^ Hill B.M. (1975) Un simple enfoque general de la inferencia sobre la cola de una distribución. Ann. Stat., v. 3, 1163–1174.
- ^ Hall, P.(1982) Sobre algunas estimaciones de un exponente de variación regular. J. R. Stat. Soc. Ser. B., v. 44, 37 a 42.
- ^ Haeusler, E. and J. L. Teugels (1985) En la normalidad asintotica del estimador de Hill para el exponente de la variación regular. Ann. Stat., v. 13, 743–756.
- ^ Hsing, T. (1991) En la estimación del índice de cola utilizando datos dependientes. Ann. Stat., v. 19, 1547-1569.
- ^ Hill, J. (2010) En la estimación del índice de cola para datos dependientes, heterogéneos. Econometric Th., v. 26, 1398-1436.
- ^ Resnick, S. and Starica, C. (1997). Comportamiento asintotico del estimador de Hill para datos autoregresivos. Comm. Statist. Modelos estocásticos 13, 703–721.
- ^ Ling, S. and Peng, L. (2004). Estimador de Hill para el índice de cola de un modelo ARMA. J. Statist. Plann. Inferencia 123, 279–293.
- ^ Hill, J. B. (2015). Estimación del índice de cola para una serie de tiempo dependiente filtrado. Stat. Sin. 25, 609-630.
- ^ Lee, Seyoon; Kim, Joseph H. T. (2019). "Distribución generalizada de Pareto: Propiedades y aplicaciones hacia la teoría del valor extremo". Comunicaciones en Estadísticas - Teoría y Métodos. 48 (8): 2014–2038. arXiv:1708.01686. doi:10.1080/03610926.2018.1441418. S2CID 88514574.
- ^ Goldie C.M., Smith R.L. (1987) Variación lenta con el resto: teoría y aplicaciones. Quart. J. Math. Oxford, v. 38, 45 a 71.
- ^ Crovella, M. E.; Taqqu, M. S. (1999). "Estimando el índice de la cola pesada de las propiedades escaladoras". Metodología y computación en probabilidad aplicada. 1: 55–79. doi:10.1023/A:1010012224103. S2CID 8917289. Archivado desde el original el 2007-02-06. Retrieved 2015-09-03.
- ^ a b Markovich N.M. (2007). Análisis noparamétrico de datos Univariados de alta calidad: investigación y práctica. Wiley. ISBN 978-0-470-72359-3.
- ^ Wand M.P., Jones M.C. (1995). Alisamiento de kernel. Nueva York: Chapman y Hall. ISBN 978-0412552700.
- ^ Sala P. (1992). La expansión Bootstrap y Edgeworth. Springer. ISBN 9780387945088.