Teoría del valor extremo

Compartir Imprimir Citar
La teoría del valor extremo se utiliza para modelar el riesgo de eventos extremos y raros, como el terremoto de Lisboa de 1755.

Teoría de valores extremos o análisis de valores extremos (EVA) es una rama de la estadística que se ocupa de las desviaciones extremas de la mediana de las distribuciones de probabilidad.. Busca evaluar, a partir de una muestra ordenada dada de una variable aleatoria dada, la probabilidad de eventos que son más extremos que cualquiera observado previamente. El análisis de valores extremos se usa ampliamente en muchas disciplinas, como la ingeniería estructural, las finanzas, las ciencias de la tierra, la predicción del tráfico y la ingeniería geológica. Por ejemplo, EVA podría usarse en el campo de la hidrología para estimar la probabilidad de un evento de inundación inusualmente grande, como la inundación de 100 años. De manera similar, para el diseño de un rompeolas, un ingeniero costero buscaría estimar la ola de 50 años y diseñar la estructura en consecuencia.

Análisis de datos

Existen dos enfoques principales para el análisis práctico de valores extremos.

El primer método se basa en derivar series máximas (mínimas) de bloques como paso preliminar. En muchas situaciones es habitual y conveniente extraer los máximos (mínimos) anuales, generando una "Serie de Máximos Anuales" (AMS).

El segundo método se basa en extraer, de un registro continuo, los valores máximos alcanzados para cualquier período durante el cual los valores superan un determinado umbral (caen por debajo de un determinado umbral). Este método generalmente se conoce como "Pico sobre umbral" método (POT).

Para los datos de AMS, el análisis puede basarse en parte en los resultados del teorema de Fisher-Tippett-Gnedenko, lo que lleva a seleccionar la distribución de valores extremos generalizados para el ajuste. Sin embargo, en la práctica, se aplican varios procedimientos para seleccionar entre una gama más amplia de distribuciones. El teorema aquí se relaciona con las distribuciones límite para el mínimo o el máximo de una colección muy grande de variables aleatorias independientes de la misma distribución. Dado que la cantidad de eventos aleatorios relevantes dentro de un año puede ser bastante limitada, no sorprende que los análisis de los datos de AMS observados a menudo conduzcan a que se seleccionen distribuciones distintas a la distribución generalizada de valores extremos (GEVD).

Para los datos POT, el análisis puede implicar el ajuste de dos distribuciones: una para el número de eventos en un período de tiempo considerado y una segunda para el tamaño de las excedencias.

Una suposición común para la primera es la distribución de Poisson, con la distribución de Pareto generalizada que se usa para las superaciones. Un ajuste de cola se puede basar en el teorema de Pickands-Balkema-de Haan.

Novak reserva el término "método POT" para el caso en que el umbral no es aleatorio y lo distingue del caso en el que se trata de superaciones de un umbral aleatorio.

Aplicaciones

Las aplicaciones de la teoría del valor extremo incluyen la predicción de la distribución de probabilidad de:

Historia

El campo de la teoría del valor extremo fue iniciado por Leonard Tippett (1902–1985). Tippett fue empleado de la Asociación Británica de Investigación de la Industria Algodonera, donde trabajó para fortalecer el hilo de algodón. En sus estudios, se dio cuenta de que la fuerza de un hilo estaba controlada por la fuerza de sus fibras más débiles. Con la ayuda de R. A. Fisher, Tippet obtuvo tres límites asintóticos que describen las distribuciones de extremos asumiendo variables independientes. Emil Julius Gumbel codificó esta teoría en su libro de 1958 Statistics of Extremes, incluidas las distribuciones de Gumbel que llevan su nombre. Estos resultados pueden extenderse para permitir correlaciones ligeras entre variables, pero la teoría clásica no se extiende a correlaciones fuertes del orden de la varianza. Una clase de universalidad de particular interés es la de los campos logarítmicos correlacionados, donde las correlaciones decaen logarítmicamente con la distancia.

Teoría univariante

Vamos X1,...... ,Xn{displaystyle X_{1},dots X_{n} ser una secuencia de variables aleatorias independientes y distribuidas idénticamente con función de distribución acumulativa F y dejar Mn=max()X1,...... ,Xn){displaystyle M_{n}=max(X_{1},dotsX_{n}} denota el máximo.

En teoría, la distribución exacta del máximo se puede derivar:

Pr()Mn≤ ≤ z)=Pr()X1≤ ≤ z,...... ,Xn≤ ≤ z)=Pr()X1≤ ≤ z)⋯ ⋯ Pr()Xn≤ ≤ z)=()F()z))n.{begin{aligned}Pr(M_{n}leq z)}pr(X_{1}leq z,dotsX_{n}leq z)\\pr(X_{1}cdotspr(X_{n}{d} {c]=(F)=

Función del indicador asociado z)}" xmlns="http://www.w3.org/1998/Math/MathML">In=I()Mn■z){displaystyle Yo...z)" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/36c69350345ad636b7a24a1220adc45b4051d8da" style="vertical-align: -0.838ex; width:15.98ex; height:2.843ex;"/> es un proceso de Bernoulli con una probabilidad de éxito p()z)=1− − ()F()z))n{displaystyle p(z)=1-(F(z)^{n} que depende de la magnitud z{displaystyle z} del evento extremo. El número de eventos extremos dentro de n{displaystyle n} así, los ensayos siguen una distribución binomial y el número de ensayos hasta que se produzca un evento sigue una distribución geométrica con valor esperado y desviación estándar del mismo orden O()1/p()z)){displaystyle O(1/p(z)}.

En la práctica, tal vez no tengamos la función de distribución F{displaystyle F} pero el teorema Fisher-Tippett-Gnedenko proporciona un resultado asintotico. Si existen secuencias de constantes 0}" xmlns="http://www.w3.org/1998/Math/MathML">an■0{displaystyle a_{n} {fn}}0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/19e309b94a4f0d733334d2cdc304ad38162c9d5e" style="vertical-align: -0.671ex; width:6.709ex; height:2.509ex;"/> y bn▪ ▪ R{displaystyle b_{n}in mathbb {R} tales que

Pr{}()Mn− − bn)/an≤ ≤ z}→ → G()z){displaystyle Pr{(M_{n}-b_{n}/a_{n}leq z}rightarrow G(z)}

como n→ → JUEGO JUEGO {displaystyle nrightarrow infty} entonces

G()z)∝ ∝ exp⁡ ⁡ [− − ()1+Especificaciones Especificaciones z)− − 1/Especificaciones Especificaciones ]{displaystyle G(z)propto exp left[-(1+zeta z)^{-1/zeta }right]}

Donde Especificaciones Especificaciones {displaystyle zeta } depende de la forma de la cola de la distribución. Cuando se normaliza, G pertenece a una de las siguientes familias de distribución no degeneradas:

Ley Weibull: <math alttext="{displaystyle G(z)={begin{cases}exp left{-left(-left({frac {z-b}{a}}right)right)^{alpha }right}&zG()z)={}exp⁡ ⁡ {}− − ()− − ()z− − ba))α α }z.b1z≥ ≥ bparaz▪ ▪ R{displaystyle G(z)={begin{cases}exp left{-left(left({frac {z-b}{a}}right)}{alpha }right} {derecho}} {derechoderecho}}derechoen math} {R}<img alt="{displaystyle G(z)={begin{cases}exp left{-left(-left({frac {z-b}{a}}right)right)^{alpha }right}&z cuando la distribución de Mn{displaystyle M_{n} tiene una cola de luz con borde superior finito. También conocido como Tipo 3.

Ley Gumbel: G()z)=exp⁡ ⁡ {}− − exp⁡ ⁡ ()− − ()z− − ba))}{displaystyle G(z)=exp left{-exp left(-left({frac {z-b}{a}right)rightright}} cuando la distribución de Mn{displaystyle M_{n} tiene una cola exponencial. También conocido como Tipo 1.

Fréchet law: bend{cases}}}" xmlns="http://www.w3.org/1998/Math/MathML">G()z)={}0z≤ ≤ bexp⁡ ⁡ {}− − ()z− − ba)− − α α }z■b{displaystyle G(z)={begin{cases}0 recurzleq b\exp left{\left {frac {z-b}{a}}right)^{-alpha }rightright} {rightjusto} Bend{cases}}}bend{cases}}}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/96d4fd2e8acc10749660de4f099da99e61080a1d" style="vertical-align: -3.838ex; width:35.921ex; height:8.843ex;"/> cuando la distribución de Mn{displaystyle M_{n} tiene una cola pesada (incluyendo la desintegración polinómica). También conocido como Tipo 2.

Para las leyes Weibull y Fréchet, 0}" xmlns="http://www.w3.org/1998/Math/MathML">α α ■0{displaystyle alpha œ0}0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/edd4f784b6e8bb68fa774213ceacbab2d97825dc" style="vertical-align: -0.338ex; width:5.749ex; height:2.176ex;"/>.

Teoría multivariante

La teoría del valor extremo en más de una variable presenta problemas adicionales que deben abordarse. Un problema que surge es que se debe especificar qué constituye un evento extremo. Aunque esto es sencillo en el caso univariante, no existe una forma inequívoca de hacerlo en el caso multivariante. El problema fundamental es que aunque es posible ordenar un conjunto de números con valores reales, no existe una forma natural de ordenar un conjunto de vectores.

Como ejemplo, en el caso univariado, dado un conjunto de observaciones xi{displaystyle x_{i}} es sencillo encontrar el evento más extremo simplemente tomando el máximo (o mínimo) de las observaciones. However, in the bivariate case, given a set of observations ()xi,Sí.i){displaystyle (x_{i},y_{i}}, no está inmediatamente claro cómo encontrar el evento más extremo. Supongamos que uno ha medido los valores ()3,4){displaystyle (3,4)} en un tiempo específico y los valores ()5,2){displaystyle (5,2)} en un momento posterior. ¿Cuál de estos eventos sería considerado más extremo? No hay respuesta universal a esta pregunta.

Otro problema en el caso multivariado es que el modelo límite no está tan completamente prescrito como en el caso univariado. En el caso univariante, el modelo (distribución GEV) contiene tres parámetros cuyos valores no son predichos por la teoría y deben obtenerse ajustando la distribución a los datos. En el caso multivariante, el modelo no solo contiene parámetros desconocidos, sino también una función cuya forma exacta no está prescrita por la teoría. Sin embargo, esta función debe obedecer ciertas restricciones. No es sencillo diseñar estimadores que obedezcan tales restricciones, aunque algunos se han construido recientemente.

Como ejemplo de aplicación, la teoría del valor extremo bivariado se ha aplicado a la investigación oceánica.

Extremos no estacionarios

El modelado estadístico para series temporales no estacionarias se desarrolló en la década de 1990. Los métodos para extremos multivariados no estacionarios se han introducido más recientemente. Este último se puede usar para rastrear cómo cambia la dependencia entre los valores extremos con el tiempo, o sobre otra covariable.

Software