Valor esperado

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En la teoría de la probabilidad, el valor esperado (también llamado expectativa, expectativa, expectativa matemática, media, promedio o primer momento) es una generalización del promedio ponderado. De manera informal, el valor esperado es la media aritmética de un gran número de resultados seleccionados de forma independiente de una variable aleatoria.

El valor esperado de una variable aleatoria con un número finito de resultados es un promedio ponderado de todos los resultados posibles. En el caso de un continuo de posibles resultados, la expectativa se define por integración. En el fundamento axiomático de la probabilidad proporcionado por la teoría de la medida, la expectativa viene dada por la integración de Lebesgue.

El valor esperado de una variable aleatoria X a menudo se denota ${displaystyle mathbb {E} [X],mathbb {E} (X),{text{o}}mathbb {E} X}$ con $matemáticas {E}$ también a menudo estilizado como $mathrm {E}$ o $mi$ .

Historia

La idea del valor esperado se originó a mediados del siglo XVII a partir del estudio del llamado problema de los puntos, que busca dividir las apuestas de manera justa entre dos jugadores, quienes deben terminar su juego antes de que sea debidamente acabado. Este problema había sido debatido durante siglos. A lo largo de los años, se sugirieron muchas propuestas y soluciones contradictorias cuando el escritor francés y matemático aficionado Chevalier de Méré se lo planteó a Blaise Pascal en 1654. Méré afirmó que este problema no podía resolverse y que mostraba cuán defectuosas eran las matemáticas cuando llegó a su aplicación al mundo real. Pascal, siendo matemático, se sintió provocado y decidido a resolver el problema de una vez por todas.

Comenzó a discutir el problema en la famosa serie de cartas a Pierre de Fermat. Muy pronto, a ambos se les ocurrió una solución de forma independiente. Resolvieron el problema de diferentes formas computacionales, pero sus resultados fueron idénticos porque sus cálculos se basaron en el mismo principio fundamental. El principio es que el valor de una ganancia futura debe ser directamente proporcional a la posibilidad de obtenerla. Este principio parecía haber llegado naturalmente a ambos. Estaban muy complacidos por el hecho de que habían encontrado esencialmente la misma solución, y esto a su vez los hizo absolutamente convencidos de que habían resuelto el problema de manera concluyente; sin embargo, no publicaron sus hallazgos. Solo informaron al respecto a un pequeño círculo de amigos científicos mutuos en París.

En el libro del matemático holandés Christiaan Huygens, consideró el problema de los puntos y presentó una solución basada en el mismo principio que las soluciones de Pascal y Fermat. Huygens publicó su tratado en 1657 (ver Huygens (1657)) " De ratiociniis in ludo aleæ " sobre teoría de la probabilidad justo después de visitar París. El libro amplió el concepto de expectativa al agregar reglas sobre cómo calcular las expectativas en situaciones más complicadas que el problema original (por ejemplo, para tres o más jugadores), y puede verse como el primer intento exitoso de sentar las bases de la teoría. de probabilidad

En el prólogo de su tratado, Huygens escribió:

Hay que decir, también, que desde hace algún tiempo algunos de los mejores matemáticos de Francia se han ocupado de esta especie de cálculo para que nadie me atribuya el honor del primer invento. Esto no me pertenece. Pero estos sabios, aunque se ponen a prueba unos a otros proponiéndose muchas cuestiones difíciles de resolver, han ocultado sus métodos. Por lo tanto, he tenido que examinar y profundizar por mí mismo en este asunto comenzando con los elementos, y me es imposible por esta razón afirmar que incluso he partido del mismo principio. Pero finalmente he encontrado que mis respuestas en muchos casos no difieren de las de ellos.—Edwards (2002)

Durante su visita a Francia en 1655, Huygens conoció el Problema de de Méré. De su correspondencia con Carcavine un año después (en 1656), se dio cuenta de que su método era esencialmente el mismo que el de Pascal. Por lo tanto, sabía acerca de la prioridad de Pascal en este tema antes de que su libro fuera a la imprenta en 1657.

A mediados del siglo XIX, Pafnuty Chebyshev se convirtió en la primera persona en pensar sistemáticamente en términos de expectativas de variables aleatorias.

Etimología

Ni Pascal ni Huygens utilizaron el término "expectativa" en su sentido moderno. En particular, Huygens escribe:

Que cualquier Oportunidad o Expectativa de ganar cualquier cosa vale tal Suma, como la que obtendría en la misma Oportunidad y Expectativa en un Lay justo.... Si espero a o b, y tengo las mismas posibilidades de obtenerlos, mi Expectativa vale (a+b)/2.

Más de cien años después, en 1814, Pierre-Simon Laplace publicó su tratado " Théorie analytique des probabilités ", donde se definía explícitamente el concepto de valor esperado:

… esta ventaja en la teoría del azar es el producto de la suma esperada por la probabilidad de obtenerla; es la suma parcial que debe resultar cuando no queremos correr los riesgos del acontecimiento al suponer que la división se hace proporcional a las probabilidades. Esta división es la única equitativa cuando se eliminan todas las circunstancias extrañas; porque un grado igual de probabilidad da un derecho igual a la suma esperada. A esta ventaja la llamaremos esperanza matemática.

Notaciones

El uso de la letra E para indicar el valor esperado se remonta a WA Whitworth en 1901. Desde entonces, el símbolo se ha vuelto popular entre los escritores ingleses. En alemán, E significa "Erwartungswert", en español "Esperanza matemática" y en francés "Espérance mathématique".

Cuando se usa "E" para denotar el valor esperado, los autores usan una variedad de estilos: el operador de expectativa se puede estilizar como E (vertical), E (cursiva) o $matemáticas {E}$ (en negrita), mientras que una variedad de notaciones entre paréntesis (como como ${displaystyle mathbb {E} [X],mathbb {E} (X),{text{y}}mathbb {E} X}$ ) se utilizan todos.

Otra notación popular es μ _X, mientras que ⟨ X ⟩, ⟨ X ⟩ _av, y ${sobrelínea {X}}$ se usan comúnmente en física, y M(X) en la literatura en idioma ruso.

Definición

Como se analiza a continuación, existen varias formas dependientes del contexto de definir el valor esperado. La definición más simple y original se ocupa del caso de un número finito de resultados posibles, como en el lanzamiento de una moneda. Con la teoría de las series infinitas, esto se puede extender al caso de muchos resultados contables posibles. También es muy común considerar el caso distinto de variables aleatorias dictadas por funciones de densidad de probabilidad continuas (por partes), tal como surgen en muchos contextos naturales. Todas estas definiciones específicas pueden verse como casos especiales de la definición general basada en las herramientas matemáticas de la teoría de la medida y la integración de Lebesgue, que proporcionan a estos diferentes contextos una base axiomática y un lenguaje común.

Cualquier definición de valor esperado puede ampliarse para definir un valor esperado de una variable aleatoria multidimensional, es decir, un vector aleatorio X. Se define componente por componente, como E[ X ] _i = E[ X _i ]. De manera similar, uno puede definir el valor esperado de una matriz aleatoria X con componentes X _ij por E[ X ] _ij = E[ X _ij ].

Variables aleatorias con un número finito de resultados

Considere una variable aleatoria X con una lista finita x ₁,..., x _k de posibles resultados, cada uno de los cuales (respectivamente) tiene probabilidad p ₁,..., p _k de ocurrir. La esperanza de X se define como ${displaystyle mathbb {E} [X]=x_{1}p_{1}+x_{2}p_{2}+cdots +x_{k}p_{k}.}$

Dado que las probabilidades deben satisfacer p ₁ + ⋅⋅⋅ + p _k = 1, es natural interpretar E[ X ] como un promedio ponderado de los valores de x _i, con ponderaciones dadas por sus probabilidades p _i.

En el caso especial de que todos los resultados posibles sean equiprobables (es decir, p ₁ = ⋅⋅⋅ = p _k), el promedio ponderado viene dado por el promedio estándar. En el caso general, el valor esperado tiene en cuenta el hecho de que algunos resultados son más probables que otros.

Ejemplos

Representemos $X$ el resultado de una tirada de un dado justo de seis caras. Más específicamente, $X$ será el número de pips que se muestran en la cara superior del dado después del lanzamiento. Los valores posibles para $X$ son 1, 2, 3, 4, 5 y 6, todos los cuales son igualmente probables con una probabilidad de1/6. La expectativa de $X$ es

${displaystyle mathbb {E} [X]=1cdot {frac {1}{6}}+2cdot {frac {1}{6}}+3cdot {frac {1}{ 6}}+4cdot {frac {1}{6}}+5cdot {frac {1}{6}}+6cdot {frac {1}{6}}=3,5.}$ Si se lanza el dado $norte$ varias veces y se calcula el promedio (media aritmética) de los resultados, entonces, a medida que $norte$ crece, el promedio casi seguramente convergerá al valor esperado, un hecho conocido como la ley fuerte de los grandes números.

El juego de la ruleta consta de una pequeña bola y una rueda con 38 bolsillos numerados alrededor del borde. A medida que gira la rueda, la pelota rebota al azar hasta que se asienta en uno de los bolsillos. Supongamos que la variable aleatoria $X$ representa el resultado (monetario) de una apuesta de $1 en un solo número (apuesta "directa"). Si la apuesta gana (lo que sucede con probabilidad1/38en la ruleta americana), el pago es de $35; de lo contrario, el jugador pierde la apuesta. La ganancia esperada de tal apuesta será

${displaystyle mathbb {E} [,{text{ganancia de}}$1{text{apuesta}},]=-$1cdot {frac {37}{38}}+$35 cdot {frac {1}{38}}=-${frac {1}{19}}.}$ Es decir, el valor esperado que se ganará con una apuesta de $1 es −$1/19. Por lo tanto, en 190 apuestas, la pérdida neta será probablemente de unos $10.

Variables aleatorias con muchos resultados contables

De manera informal, la expectativa de una variable aleatoria con un conjunto contable de resultados posibles se define de manera análoga como el promedio ponderado de todos los resultados posibles, donde los pesos están dados por las probabilidades de realizar cada valor dado. Esto es para decir que ${displaystyle mathbb {E} [X]=sum _{i=1}^{infty}x_{i},p_{i},}$

donde x ₁, x ₂,... son los posibles resultados de la variable aleatoria X y p ₁, p ₂,... son sus probabilidades correspondientes. En muchos libros de texto no matemáticos, esto se presenta como la definición completa de los valores esperados en este contexto.

Sin embargo, hay algunas sutilezas con la suma infinita, por lo que la fórmula anterior no es adecuada como definición matemática. En particular, el teorema de la serie de Riemann del análisis matemático ilustra que el valor de ciertas sumas infinitas que involucran sumandos positivos y negativos depende del orden en que se dan los sumandos. Dado que los resultados de una variable aleatoria no tienen un orden natural, esto crea una dificultad para definir con precisión el valor esperado.

Por esta razón, muchos libros de texto de matemáticas solo consideran el caso de que la suma infinita dada arriba converja absolutamente, lo que implica que la suma infinita es un número finito independiente del orden de los sumandos. En el caso alternativo de que la suma infinita no converja absolutamente, se dice que la variable aleatoria no tiene esperanza finita.

Ejemplos

Supongamos que ${ estilo de visualización x_ {i} = i}$ y ${displaystyle p_{i}={tfrac{c}{i2^{i}}}}$ para ${displaystyle i=1,2,3,ldots,}$ donde ${displaystyle c={tfrac {1}{ln 2}}}$ es el factor de escala que hace que las probabilidades sumen 1. Entonces, usando la definición directa para variables aleatorias no negativas, tenemos ${displaystyle mathbb {E} [X],=sum _{i}x_{i}p_{i}=1({tfrac {c}{2}})+2({tfrac {c {8}})+3({tfrac {c}{24}})+cdots ,=,{tfrac {c}{2}}+{tfrac {c}{4}}+ {tfrac {c}{8}}+cdots ,=,c,=,{tfrac {1}{ln 2}}.}$

Variables aleatorias con densidad

Ahora considere una variable aleatoria X que tiene una función de densidad de probabilidad dada por una función f en la recta numérica real. Esto significa que la probabilidad de que X tome un valor en cualquier intervalo abierto dado está dada por la integral de f en ese intervalo. La esperanza de X viene dada entonces por la integral ${displaystyle mathbb {E} [X]=int_{-infty}^{infty}xf(x),mathrm {d} x.}$

Una formulación general y matemáticamente precisa de esta definición utiliza la teoría de la medida y la integración de Lebesgue, y la correspondiente teoría de variables aleatorias absolutamente continuas se describe en la siguiente sección. Las funciones de densidad de muchas distribuciones comunes son continuas por partes y, como tal, la teoría a menudo se desarrolla en este entorno restringido. Para tales funciones, es suficiente considerar solo la integración estándar de Riemann. A veces , las variables aleatorias continuas se definen como aquellas que corresponden a esta clase especial de densidades, aunque el término es utilizado de manera diferente por varios autores.

De manera análoga al caso infinito numerable anterior, hay sutilezas con esta expresión debido a la región infinita de integración. Tales sutilezas se pueden ver concretamente si la distribución de X viene dada por la distribución de Cauchy Cauchy(0, π), de modo que f (x) = (x + π). Es sencillo calcular en este caso que ${displaystyle int _{a}^{b}xf(x),mathrm {d} x=int _{a}^{b}{frac {x}{x^{2}+ pi ^{2}}},mathrm {d} x={frac {1}{2}}ln {frac {b^{2}+pi ^{2}}{a^{2 }+pi ^{2}}}.}$

El límite de esta expresión como a → −∞ y b → ∞ no existe: si se toman los límites de modo que a = − b, entonces el límite es cero, mientras que si se toma la restricción 2 a = − b, entonces el el límite es ln(2).

Para evitar tales ambigüedades, en los libros de texto de matemáticas es común exigir que la integral dada converja absolutamente, dejando E[ X ] sin definir en caso contrario. Sin embargo, las nociones de teoría de la medida que se dan a continuación se pueden usar para dar una definición sistemática de E[ X ] para variables aleatorias más generales X.

Variables aleatorias arbitrarias de valor real

Todas las definiciones del valor esperado pueden expresarse en el lenguaje de la teoría de la medida. En general, si X es una variable aleatoria de valor real definida en un espacio de probabilidad (Ω, Σ, P), entonces el valor esperado de X, denotado por E[ X ], se define como la integral de Lebesgue ${displaystyle mathbb {E} [X]=int_{Omega }X,doperatorname {P}.}$

A pesar de la nueva situación abstracta, esta definición es de naturaleza extremadamente similar a la definición más simple de valores esperados, dada anteriormente, como ciertos promedios ponderados. Esto se debe a que, en la teoría de la medida, el valor de la integral de Lebesgue de X se define mediante promedios ponderados de aproximaciones de X que toman un número finito de valores. Además, si se da una variable aleatoria con muchos valores posibles finitos o contables, la teoría de la expectativa de Lebesgue es idéntica a las fórmulas de suma dadas anteriormente. Sin embargo, la teoría de Lebesgue aclara el alcance de la teoría de las funciones de densidad de probabilidad. Se dice que una variable aleatoria X es absolutamente continuasi se cumple alguna de las siguientes condiciones:

hay una función medible no negativa f en la recta real tal que

${displaystyle mathbb {P} [Xin A]=int _{A}f(x),dx,}$ para cualquier conjunto de Borel A, en el que la integral es de Lebesgue.

la función de distribución acumulativa de X es absolutamente continua.
para cualquier conjunto A de Borel de números reales con medida de Lebesgue igual a cero, la probabilidad de que X se valore en A también es igual a cero
para cualquier número positivo ε existe un número positivo δ tal que: si A es un conjunto de Borel con medida de Lebesgue menor que δ, entonces la probabilidad de que X se valore en A es menor que ε.

Estas condiciones son todas equivalentes, aunque esto no es trivial de establecer. En esta definición, f se denomina función de densidad de probabilidad de X (relativa a la medida de Lebesgue). De acuerdo con la fórmula de cambio de variables para la integración de Lebesgue, combinada con la ley del estadístico inconsciente, se sigue que ${displaystyle mathbb {E} [X]equiv int_{Omega }X,doperatorname {P} =int_{mathbb {R} }xf(x),mathrm {d } X}$

para cualquier variable aleatoria absolutamente continua X. La discusión anterior de variables aleatorias continuas es, por lo tanto, un caso especial de la teoría general de Lebesgue, debido al hecho de que cada función continua por partes es medible.

Valores esperados infinitos

Los valores esperados, tal como se definen anteriormente, son automáticamente números finitos. Sin embargo, en muchos casos es fundamental poder considerar valores esperados de ±∞. Esto es intuitivo, por ejemplo, en el caso de la paradoja de San Petersburgo, en la que se considera una variable aleatoria con posibles resultados x _i = 2, con probabilidades asociadas p _i = 2, para i oscilando entre todos los números enteros positivos. De acuerdo con la fórmula de suma en el caso de variables aleatorias con muchos resultados contables, uno tiene

{displaystyle mathbb {E} [X]=sum_{i=1}^{infty}x_{i},p_{i}=2cdot {frac {1}{2}}+ 4cdot {frac {1}{4}}+8cdot {frac {1}{8}}+16cdot {frac {1}{16}}+cdots =1+1+1 +1+cpuntos.}

Es natural decir que el valor esperado es igual a +∞.

Hay una teoría matemática rigurosa que subyace a tales ideas, que a menudo se toma como parte de la definición de la integral de Lebesgue. La primera observación fundamental es que, cualquiera que sea la definición anterior que se siga, a cualquier variable aleatoria no negativa se le puede dar un valor esperado inequívoco; siempre que falla la convergencia absoluta, el valor esperado se puede definir como +∞. La segunda observación fundamental es que cualquier variable aleatoria puede escribirse como la diferencia de dos variables aleatorias no negativas. Dada una variable aleatoria X, se definen las partes positiva y negativa por X = max(X, 0) y X = −min(X, 0). Estas son variables aleatorias no negativas y se puede comprobar directamente que X = X − X. Como E[ X ] y E[ X ] se definen como números no negativos o +∞, es natural definir:

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/5a387adb433f49e91a363b2b60b342bf58d1c9a5" alt="{displaystyle mathbb {E} [X]={begin{casos}mathbb {E} [X^{+}]-mathbb {E} [X^{-}]&{text{si} }mathbb {E} [X^{+}]<infty {text{ y }}mathbb {E} [X^{-}]<infty;\+infty &{text{if }}mathbb {E} [X^{+}]=infty {text{ y }}mathbb {E} [X^{-}]<infty;\-infty &{text{ si }}mathbb {E} [X^{+}]

De acuerdo con esta definición, E[ X ] existe y es finito si y solo si E[ X ] y E[ X ] son ambos finitos. Debido a la fórmula | X | = X + X, este es el caso si y solo si E| X | es finito, y esto es equivalente a las condiciones de convergencia absoluta en las definiciones anteriores. Como tal, las presentes consideraciones no definen valores esperados finitos en ningún caso no considerado previamente; sólo sirven para infinitas expectativas.

En el caso de la paradoja de San Petersburgo, se tiene X = 0 y por lo tanto E[ X ] = +∞ como se desee.
Supongamos que la variable aleatoria X toma los valores 1, −2,3, −4,... con las respectivas probabilidades 6π, 6(2π), 6(3π), 6(4π),.... Entonces se sigue que X toma valor 2 k −1 con probabilidad 6((2 k −1)π) para cada entero positivo k, y toma valor 0 con probabilidad restante. De manera similar, X toma valor 2 k con probabilidad 6(2 k π) para cada entero positivo k y toma valor 0con probabilidad restante. Usando la definición de variables aleatorias no negativas, se puede demostrar que tanto E[ X ] = ∞ como E[ X ] = −∞ (ver Serie armónica). Por lo tanto, en este caso la expectativa de X no está definida.
De manera similar, la distribución de Cauchy, como se discutió anteriormente, tiene una expectativa indefinida.

Valores esperados de distribuciones comunes

La siguiente tabla da los valores esperados de algunas distribuciones de probabilidad que ocurren comúnmente. La tercera columna da los valores esperados tanto en la forma dada inmediatamente por la definición, como en la forma simplificada obtenida por cálculo a partir de la misma. Los detalles de estos cálculos, que no siempre son sencillos, se pueden encontrar en las referencias indicadas.

{ estilo de visualización X sim ~ B (p)}

Distribución	Notación	Media E(X)
Bernoulli	${ estilo de visualización X sim ~ B (p)}$	${displaystyle 0cdot (1-p)+1cdot p=p}$
Binomio	${ estilo de visualización X sim B (n, p)}$	${displaystyle sum _{i=0}^{n}i{n elegir i}p^{i}(1-p)^{ni}=np}$
veneno	${displaystyle Xsim operatorname {Pois} (lambda)}$	${displaystyle sum_{i=0}^{infty} {frac {ie^{-lambda}lambda ^{i}}{i!}}=lambda}$
Geométrico	${displaystyle Xsim mathrm {Geométrica} (p)}$	${displaystyle sum _{i=1}^{infty}ip(1-p)^{i-1}={frac {1}{p}}}$
Uniforme	${displaystyle Xsim operatorname {Uniforme} (a,b)}$	${displaystyle int _{a}^{b}{frac {x}{ba}},dx={frac {a+b}{2}}}$
Exponencial	${displaystyle Xsim operatorname {Expo} (lambda)}$	${displaystyle int _{0}^{infty}lambda xe^{-lambda x},dx={frac {1}{lambda}}}$
Normal	${displaystyle Xsim {mathcal {N}}(mu,sigma ^{2})}$	${displaystyle {frac {1}{sqrt {2pi sigma ^{2}}}}int _{-infty}^{infty}xe^{-(x-mu)^{ 2}/2sigma ^{2}},dx=mu}$
normal estándar	${displaystyle Xsim {mathcal {N}}(0,1)}$	${displaystyle {frac {1}{sqrt {2pi }}}int_{-infty}^{infty}xe^{-x^{2}/2},dx=0}$
Pareto	${displaystyle Xsim mathrm {Par} (alpha,k)}$	1\infty &0leq alpha leq 1.end{casos}}}">
cauchy	${displaystyle Xsim mathrm {Cauchy} (x_{0},gamma)}$	${displaystyle {frac {1}{pi }}int _{-infty }^{infty }{frac {gamma x}{(x-x_{0})^{2}+ gama ^{2}}},dx}$ es indefinido

Propiedades

Las propiedades básicas a continuación (y sus nombres en negrita) replican o se derivan inmediatamente de las de la integral de Lebesgue. Tenga en cuenta que las letras "como" significan "casi seguro", una propiedad central de la integral de Lebesgue. Básicamente, se dice que una desigualdad como ${ estilo de visualización X geq 0}$ es cierta casi con seguridad, cuando la medida de probabilidad atribuye masa cero al evento complementario <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/0bb52a0b90661f37ebdac65a9ba6ef5cbe33e219" alt="{ estilo de visualización izquierda {X .

No negatividad: Si ${ estilo de visualización X geq 0}$ (como), entonces ${ estilo de visualización nombre del operador {E} [X] geq 0}$ .
Linealidad de la expectativa: el operador de valor esperado (u operador de expectativa) $nombre del operador {E}[cdot]$ es lineal en el sentido de que, para cualquier variable aleatoria $X$ y $Y$ , y una constante $un$ , ${displaystyle {begin{alineado}mathbb {E} [X+Y]&=mathbb {E} [X]+mathbb {E} [Y],\mathbb {E} [aX]& =amathbb {E} [X],end{alineado}}}$

siempre que el lado derecho esté bien definido. Esto significa que el valor esperado de la suma de cualquier número finito de variables aleatorias es la suma de los valores esperados de las variables aleatorias individuales, y el valor esperado escala linealmente con una constante multiplicativa. Simbólicamente, para $norte$ variables aleatorias $X_{yo}$ y constantes ${displaystyle a_{i}(1leq ileq N)}$ , tenemos ${textstyle mathbb {E} left[sum_{i=1}^{N}a_{i}X_{i}right]=sum_{i=1}^{N}a_{i }matemáticas {E} [X_{i}]}$ .

Monotonicidad: Si ${ estilo de visualización X leq Y}$ (como), y ambos ${ estilo de visualización mathbb {E} [X]}$ y ${ estilo de visualización mathbb {E} [Y]}$ existen, entonces ${displaystyle mathbb {E} [X]leq mathbb {E} [Y]}$ .La prueba se sigue de la propiedad de linealidad y no negatividad para ${ estilo de visualización Z = YX}$ , ya ${ estilo de visualización Z geq 0}$ que (as).
No degeneración: Si ${ estilo de visualización mathbb {E} [| X |] = 0}$ , entonces ${ estilo de visualización X = 0}$ (as).
Si ${ estilo de visualización X = Y}$ (como), entonces ${displaystyle mathbb {E} [X]=mathbb {E} [Y]}$ . En otras palabras, si X e Y son variables aleatorias que toman diferentes valores con probabilidad cero, entonces la expectativa de X será igual a la expectativa de Y.
Si ${ estilo de visualización X = c}$ (as) para algún número real c, entonces ${ estilo de visualización mathbb {E} [X] = c}$ . En particular, para una variable aleatoria $X$ con expectativa bien definida, ${displaystyle mathbb {E} [mathbb {E} [X]]=mathbb {E} [X]}$ . Una expectativa bien definida implica que hay un número, o mejor dicho, una constante que define el valor esperado. Por lo tanto, se deduce que la expectativa de esta constante es solo el valor esperado original.
Como consecuencia de la fórmula | X | = X + X como se discutió anteriormente, junto con la desigualdad del triángulo, se deduce que para cualquier variable aleatoria $X$ con expectativa bien definida, uno tiene ${displaystyle |mathbb {E} [X]|leq mathbb {E} |X|}$ .
Sea 1 _A la función indicadora de un evento A, entonces E[ 1 _A ] viene dada por la probabilidad de A. Esto no es más que una forma diferente de establecer la expectativa de una variable aleatoria de Bernoulli, tal como se calcula en la tabla anterior.
Fórmulas en términos de CDF: Si $F(x)$ es la función de distribución acumulativa de una variable aleatoria X, entonces

{displaystyle mathbb {E} [X]=int _{-infty}^{infty}x,dF(x),}

donde los valores en ambos lados están bien definidos o no están bien definidos simultáneamente, y la integral se toma en el sentido de Lebesgue-Stieltjes. Como consecuencia de la integración por partes aplicada a esta representación de E[ X ], se puede demostrar que

{displaystyle mathbb {E} [X]=int_{0}^{infty}(1-F(x)),dx-int_{-infty}^{0}F(x)),dx,}

con las integrales tomadas en el sentido de Lebesgue. Como caso especial, para cualquier variable aleatoria X valorada en los enteros no negativos {0, 1, 2, 3,... }, se tiene

{displaystyle mathbb {E} [X]=sum _{n=0}^{infty}mathbb {P} [X>n]}

donde P denota la medida de probabilidad subyacente.

No multiplicatividad: En general, el valor esperado no es multiplicativo, es decir, ${ estilo de visualización mathbb {E} [XY]}$ no es necesariamente igual a ${displaystyle mathbb {E} [X]cdot mathbb {E} [Y]}$ . Si $X$ y $Y$ son independientes, entonces se puede demostrar que ${displaystyle mathbb {E} [XY]=mathbb {E} [X]mathbb {E} [Y]}$ . Si las variables aleatorias son dependientes, generalmente ${displaystyle mathbb {E} [XY]neq mathbb {E} [X]mathbb {E} [Y]}$ , aunque en casos especiales de dependencia la igualdad puede mantenerse.
Ley del estadístico inconsciente: El valor esperado de una función medible de $X$ , $g(X)$ , dado que $X$ tiene una función de densidad de probabilidad $f(x)$ , viene dado por el producto interno de $F$ y $gramo$ : ${displaystyle mathbb {E} [g(X)]=int _{mathbb {R} }g(x)f(x),dx.}$ Esta fórmula también es válida en el caso multidimensional, cuando $gramo$ es una función de varias variables aleatorias y $F$ es su densidad conjunta.

Desigualdades

Las desigualdades de concentración controlan la probabilidad de que una variable aleatoria tome valores grandes. La desigualdad de Markov es una de las más conocidas y sencillas de probar: para una variable aleatoria no negativa X y cualquier número positivo a, establece que

{displaystyle mathbb {P} [Xgeq a]leq {frac {mathbb {E} [X]}{a}}.}

Si X es cualquier variable aleatoria con expectativa finita, entonces la desigualdad de Markov se puede aplicar a la variable aleatoria | X −E[ X ]| para obtener la desigualdad de Chebyshev

{displaystyle mathbb {P} [|X-mathbb {E} [X]|geq a]leq {frac {operatorname {Var} [X]}{a^{2}}},}

donde Var es la varianza. Estas desigualdades son significativas por su falta casi total de supuestos condicionales. Por ejemplo, para cualquier variable aleatoria con expectativa finita, la desigualdad de Chebyshev implica que existe al menos un 75% de probabilidad de que un resultado esté dentro de dos desviaciones estándar del valor esperado. Sin embargo, en casos especiales, las desigualdades de Markov y Chebyshev a menudo brindan información mucho más débil que la que está disponible de otra manera. Por ejemplo, en el caso de un dado no ponderado, la desigualdad de Chebyshev dice que las probabilidades de sacar entre 1 y 6 son al menos del 53 %; en realidad, las probabilidades son, por supuesto, del 100%. La desigualdad de Kolmogorov extiende la desigualdad de Chebyshev al contexto de sumas de variables aleatorias.

Las siguientes tres desigualdades son de fundamental importancia en el campo del análisis matemático y sus aplicaciones a la teoría de la probabilidad.

Desigualdad de Jensen: Sea f: ℝ → ℝ una función convexa y X una variable aleatoria con expectativa finita. Entonces ${displaystyle f(mathbb {E} (X))leq mathbb {E} (f(X)).}$

Parte de la afirmación es que la parte negativa de f (X) tiene una expectativa finita, por lo que el lado derecho está bien definido (posiblemente infinito). La convexidad de f se puede expresar como diciendo que la salida del promedio ponderado de dos entradas subestima el mismo promedio ponderado de las dos salidas; La desigualdad de Jensen extiende esto al establecimiento de promedios ponderados completamente generales, representados por la expectativa. En el caso especial de que f (x) = | x | para números positivos s < t, se obtiene la desigualdad de Lyapunov

{displaystyle mathbb {E} [|X|^{s}]^{frac {1}{s}}leq mathbb {E} [|X|^{t}]^{frac {1 {t}}.}

Esto también se puede demostrar mediante la desigualdad de Hölder. En la teoría de la medida, esto es particularmente notable para probar la inclusión L ⊂ L de L espacios, en el caso especial de los espacios de probabilidad.

Desigualdad de Hölder: si p > 1 y q > 1 son números que satisfacen p + q = 1, entonces ${displaystyle mathbb {E} |XY|leq (mathbb {E} |X|^{p})^{1/p}(mathbb {E} |Y|^{q})^{1 /q}.}$

para cualquier variable aleatoria X e Y. El caso especial de p = q = 2 se denomina desigualdad de Cauchy-Schwarz y es particularmente conocido.

Desigualdad de Minkowski: dado cualquier número p ≥ 1, para cualquier variable aleatoria X e Y con E| X | y E| Y | ambos finitos, se sigue que E| X + Y | también es finito y ${displaystyle {Bigl (}mathbb {E} |X+Y|^{p}{Bigr)}^{1/p}leq {Bigl (}mathbb {E} |X|^{ p}{Bigr)}^{1/p}+{Bigl (}mathbb {E} |Y|^{p}{Bigr)}^{1/p}.}$

Las desigualdades de Hölder y Minkowski se pueden extender a espacios de medidas generales y, a menudo, se dan en ese contexto. Por el contrario, la desigualdad de Jensen es especial para el caso de los espacios de probabilidad.

Expectativas bajo convergencia de variables aleatorias

En general, no es el caso que ${ estilo de visualización nombre del operador {E} [X_{n}] a nombre del operador {E} [X]}$ incluso si ${displaystyle X_{n}a X}$ puntualmente. Por lo tanto, uno no puede intercambiar límites y expectativas, sin condiciones adicionales sobre las variables aleatorias. Para ver esto, $tu$ sea una variable aleatoria distribuida uniformemente en $[0,1]$ . Para ${ estilo de visualización n geq 1,}$ definir una secuencia de variables aleatorias ${displaystyle X_{n}=ncdot mathbf {1} left{Uin left(0,{tfrac {1}{n}}right)right},}$

siendo ${displaystyle {mathbf{1} }{A}}$ la función indicadora del evento $UN$ . Entonces, sigue eso $X_{n}a 0$ puntualmente. Pero, ${displaystyle mathbb {E} [X_{n}]=ncdot mathbb {P} left[Uin left[0,{tfrac {1}{n}}right]right] =ncdot {tfrac{1}{n}}=1}$ para cada uno $norte$ . Por lo tanto, ${displaystyle lim_{nto infty}mathbb {E} [X_{n}]=1neq 0=mathbb {E} left[lim_{nto infty}X_{ n}derecho].}$

Análogamente, para la secuencia general de variables aleatorias ${ estilo de visualización {Y_ {n}: n geq 0 }}$ , el operador de valor esperado no es $sigma$ -aditivo, es decir ${displaystyle mathbb {E} left[sum_{n=0}^{infty}Y_{n}right]neq sum_{n=0}^{infty}mathbb {E } [Y_{n}].}$

Un ejemplo se obtiene fácilmente configurando ${ estilo de visualización Y_ {0} = X_ {1}}$ y ${displaystyle Y_{n}=X_{n+1}-X_{n}}$ para $ngeq 1$ , donde $X_{n}$ es como en el ejemplo anterior.

Varios resultados de convergencia especifican condiciones exactas que permiten intercambiar límites y expectativas, como se especifica a continuación.

Teorema de convergencia monótona: Sea ${ estilo de visualización {X_ {n}: n geq 0 }}$ una secuencia de variables aleatorias, con ${displaystyle 0leq X_{n}leq X_{n+1}}$ (as) para cada una ${ estilo de visualización n geq 0}$ . Además, vamos $X_{n}a X$ puntualmente. Entonces, el teorema de la convergencia monótona establece que ${displaystyle lim _{n}mathbb {E} [X_{n}]=mathbb {E} [X].}$ Usando el teorema de la convergencia monótona, se puede demostrar que la expectativa de hecho satisface la aditividad contable para variables aleatorias no negativas. En particular, ${displaystyle {X_{i}}_{i=0}^{infty}}$ sean variables aleatorias no negativas. Del teorema de la convergencia monótona se deduce que ${displaystyle mathbb {E} left[sum_{i=0}^{infty}X_{i}right]=sum_{i=0}^{infty}mathbb {E} [X_{i}].}$
Lema de Fatou: Sea ${ estilo de visualización {X_ {n} geq 0: n geq 0 }}$ una secuencia de variables aleatorias no negativas. El lema de Fatou establece que ${displaystyle mathbb {E} [liminf _{n}X_{n}]leq liminf _{n}operatorname {E} [X_{n}].}$ Corolario. Vamos ${ Displaystyle X_ {n} geq 0}$ con ${ estilo de visualización nombre del operador {E} [X_ {n}] leq C}$ para todos ${ estilo de visualización n geq 0}$ . Si ${displaystyle X_{n}a X}$ (como), entonces ${ estilo de visualización nombre del operador {E} [X] leq C.}$ La prueba es observando que ${textstyle X=liminf _{n}X_{n}}$ (as) y aplicando el lema de Fatou.
Teorema de la convergencia dominada: Sea una secuencia de variables aleatorias. Si puntualmente (como), (como), y <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/edf80c498852aab16cd04f42c9f5160751769242" alt="{displaystyle mathbb {E} [Y]. Entonces, de acuerdo con el teorema de la convergencia dominada,
- <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/103eacfe22bb95cbec81f257c3a1911d4e996ccf" alt="{displaystyle mathbb {E} |X|leq mathbb {E} [Y];
- ${displaystyle lim _{n}mathbb {E} [X_{n}]=mathbb {E} [X]}$
- ${displaystyle lim _{n}mathbb {E} |X_{n}-X|=0.}$
Integrabilidad uniforme: en algunos casos, la igualdad ${displaystyle lim _{n}operatorname {E} [X_{n}]=operatorname {E} [lim _{n}X_{n}]}$ se cumple cuando la secuencia ${X_{n}}$ es integrable uniformemente.

Relación con la función característica

La función de densidad de probabilidad $f_x$ de una variable aleatoria escalar $X$ está relacionada con su función característica ${ estilo de visualización varphi _ {X}}$ mediante la fórmula de inversión: ${displaystyle f_{X}(x)={frac {1}{2pi }}int_{mathbb {R} }e^{-itx}varphi_{X}(t), mathrm {d} t.}$

Para el valor esperado de $g(X)$ (donde ${displaystyle g:{mathbb {R} }to {mathbb {R} }}$ es una función de Borel), podemos usar esta fórmula de inversión para obtener ${displaystyle mathbb {E} [g(X)]={frac {1}{2pi }}int _{mathbb {R} }g(x)left[int_{mathbb {R} }e^{-itx}varphi _{X}(t),mathrm {d} tright],mathrm {d} x.}$

Si ${ estilo de visualización mathbb {E} [g (X)]}$ es finito, cambiando el orden de integración, se obtiene, de acuerdo con el teorema de Fubini-Tonelli, ${displaystyle mathbb {E} [g(X)]={frac {1}{2pi }}int _{mathbb {R} }G(t)varphi _{X}(t) ,mathrm {d} t,}$

donde ${displaystyle G(t)=int_{mathbb {R} }g(x)e^{-itx},mathrm {d} x}$

es la transformada de Fourier de $g(x).$ La expresión para ${ estilo de visualización nombre del operador {E} [g (X)]}$ también se sigue directamente del teorema de Plancherel.

Usos y aplicaciones

La expectativa de una variable aleatoria juega un papel importante en una variedad de contextos. Por ejemplo, en la teoría de la decisión, a menudo se supone que un agente que hace una elección óptima en el contexto de información incompleta maximiza el valor esperado de su función de utilidad. Para un ejemplo diferente, en estadística, donde uno busca estimaciones de parámetros desconocidos basados en datos disponibles, la estimación en sí misma es una variable aleatoria. En tales escenarios, un criterio deseable para un "buen" estimador es que no esté sesgado; es decir, el valor esperado de la estimación es igual al valor real del parámetro subyacente.

Es posible construir un valor esperado igual a la probabilidad de un evento, tomando la expectativa de una función indicadora que es uno si el evento ha ocurrido y cero en caso contrario. Esta relación puede usarse para traducir propiedades de valores esperados en propiedades de probabilidades, por ejemplo, usando la ley de los grandes números para justificar la estimación de probabilidades por frecuencias.

Los valores esperados de las potencias de X se denominan momentos de X; los momentos con respecto a la media de X son valores esperados de potencias de X − E[ X ]. Los momentos de algunas variables aleatorias se pueden usar para especificar sus distribuciones, a través de sus funciones generadoras de momentos.

Para estimar empíricamente el valor esperado de una variable aleatoria, se miden repetidamente las observaciones de la variable y se calcula la media aritmética de los resultados. Si existe el valor esperado, este procedimiento estima el verdadero valor esperado de manera imparcial y tiene la propiedad de minimizar la suma de los cuadrados de los residuos (la suma de las diferencias al cuadrado entre las observaciones y la estimación). La ley de los grandes números demuestra (en condiciones bastante moderadas) que, a medida que aumenta el tamaño de la muestra, la varianza de esta estimación se reduce.

Esta propiedad a menudo se explota en una amplia variedad de aplicaciones, incluidos problemas generales de estimación estadística y aprendizaje automático, para estimar cantidades (probabilísticas) de interés a través de métodos de Monte Carlo, ya que la mayoría de las cantidades de interés se pueden escribir en términos de expectativa, por ejemplo ${displaystyle mathbb {P} [{Xin {mathcal {A}}}]=mathbb {E} [{mathbf {1} }_{mathcal {A}}]}$ , donde ${displaystyle {mathbf {1} }_{mathcal {A}}}$ es la función indicadora del conjunto ${ matemáticas {A}}$ .

En la mecánica clásica, el centro de masa es un concepto análogo a la expectativa. Por ejemplo, suponga que X es una variable aleatoria discreta con valores x _i y las probabilidades correspondientes p _i. Ahora considere una barra sin peso sobre la cual se colocan pesos, en ubicaciones x _{i a lo largo de la barra y}_que tienen masas pi (cuya suma es uno). El punto en el que la barra se equilibra es E[ X ].

Los valores esperados también se pueden utilizar para calcular la varianza, mediante la fórmula de cálculo de la varianza ${displaystyle operatorname {Var} (X)=mathbb {E} [X^{2}]-mathbb {E} [X]^{2}.}$

Una aplicación muy importante del valor esperado se encuentra en el campo de la mecánica cuántica. El valor esperado de un operador mecánico cuántico que ${ sombrero {A}}$ opera en un vector de estado cuántico $|psiángulo$ se escribe como $langle {sombrero {A}}rangle =langle psi |A|psi rangle$ . La incertidumbre en ${ sombrero {A}}$ se puede calcular usando la fórmula $(Delta A)^{2}=langle {hat {A}}^{2}rangle -langle {hat {A}}rangle ^{2}$ .

Contenido relacionado

Más resultados...