Teoría de la probabilidad

Compartir Imprimir Citar

Teoría de probabilidad es la rama de las matemáticas que se ocupa de la probabilidad. Aunque hay varias interpretaciones de probabilidad diferentes, la teoría de la probabilidad trata el concepto de manera matemática rigurosa al expresarlo a través de un conjunto de axiomas. Por lo general, estos axiomas formalizan la probabilidad en términos de un espacio de probabilidad, que asigna una medida que toma valores entre 0 y 1, denominada medida de probabilidad, a un conjunto de resultados denominado espacio muestral. Cualquier subconjunto especificado del espacio muestral se denomina evento. Los temas centrales en la teoría de la probabilidad incluyen variables aleatorias discretas y continuas, distribuciones de probabilidad y procesos estocásticos, que proporcionan abstracciones matemáticas de procesos no deterministas o inciertos o cantidades medidas que pueden ser ocurrencias únicas o evolucionar con el tiempo de manera aleatoria. Aunque no es posible predecir perfectamente eventos aleatorios, se puede decir mucho sobre su comportamiento. Dos resultados importantes en la teoría de la probabilidad que describen tal comportamiento son la ley de los grandes números y el teorema del límite central.

Como base matemática para las estadísticas, la teoría de la probabilidad es esencial para muchas actividades humanas que implican el análisis cuantitativo de datos. Los métodos de la teoría de la probabilidad también se aplican a las descripciones de sistemas complejos dado solo un conocimiento parcial de su estado, como en la mecánica estadística o la estimación secuencial. Un gran descubrimiento de la física del siglo XX fue la naturaleza probabilística de los fenómenos físicos a escala atómica, descritos en la mecánica cuántica.

Historia de la probabilidad

La teoría matemática moderna de la probabilidad tiene sus raíces en los intentos de analizar los juegos de azar de Gerolamo Cardano en el siglo XVI y de Pierre de Fermat y Blaise Pascal en el siglo XVII (por ejemplo, el "problema de los puntos"). Christiaan Huygens publicó un libro sobre el tema en 1657 y en el siglo XIX, Pierre Laplace completó lo que hoy se considera la interpretación clásica.

Inicialmente, la teoría de la probabilidad consideraba principalmente eventos discretos y sus métodos eran principalmente combinatorios. Eventualmente, las consideraciones analíticas obligaron a la incorporación de variables continuas en la teoría.

Esto culminó en la moderna teoría de la probabilidad, sobre los cimientos establecidos por Andrey Nikolaevich Kolmogorov. Kolmogorov combinó la noción de espacio muestral, introducida por Richard von Mises, y la teoría de la medida y presentó su sistema de axiomas para la teoría de la probabilidad en 1933. Esto se convirtió en la base axiomática mayoritariamente indiscutible de la teoría de la probabilidad moderna; pero existen alternativas, como la adopción de aditividad finita en lugar de numerable por Bruno de Finetti.

Tratamiento

La mayoría de las introducciones a la teoría de la probabilidad tratan las distribuciones de probabilidad discretas y las distribuciones de probabilidad continuas por separado. El tratamiento de la probabilidad basado en la teoría de la medida cubre lo discreto, lo continuo, una combinación de los dos y más.

Motivación

Considere un experimento que puede producir una serie de resultados. El conjunto de todos los resultados se denomina espacio muestral del experimento. El conjunto potencia del espacio muestral (o, de manera equivalente, el espacio de eventos) se forma considerando todas las colecciones diferentes de resultados posibles. Por ejemplo, lanzar un dado honesto produce uno de seis resultados posibles. Una colección de posibles resultados corresponde a obtener un número impar. Así, el subconjunto {1,3,5} es un elemento del conjunto potencia del espacio muestral de tiradas de dados. Estas colecciones se denominan eventos . En este caso, {1,3,5} es el evento de que el dado cae en algún número impar. Si los resultados que realmente ocurren caen en un evento dado, se dice que ese evento ha ocurrido.

La probabilidad es una forma de asignar a cada "evento" un valor entre cero y uno, con el requisito de que el evento se componga de todos los resultados posibles (en nuestro ejemplo, el evento {1,2,3,4,5,6}) se le asigna un valor de uno. Para calificar como una distribución de probabilidad, la asignación de valores debe cumplir el requisito de que si observa una colección de eventos mutuamente excluyentes (eventos que no contienen resultados comunes, por ejemplo, los eventos {1,6}, {3} y { 2,4} son todos mutuamente excluyentes), la probabilidad de que cualquiera de estos eventos ocurra está dada por la suma de las probabilidades de los eventos.

La probabilidad de que ocurra cualquiera de los eventos {1,6}, {3} o {2,4} es 5/6. Esto es lo mismo que decir que la probabilidad del evento {1,2,3,4,6} es 5/6. Este evento abarca la posibilidad de que salga cualquier número excepto cinco. El evento mutuamente excluyente {5} tiene una probabilidad de 1/6, y el evento {1,2,3,4,5,6} tiene una probabilidad de 1, es decir, certeza absoluta.

Al hacer cálculos con los resultados de un experimento, es necesario que todos esos eventos elementales tengan asignado un número. Esto se hace usando una variable aleatoria. Una variable aleatoria es una función que asigna a cada evento elemental en el espacio muestral un número real. Esta función generalmente se denota con una letra mayúscula. En el caso de un dado, la asignación de un número a determinados eventos elementales se puede realizar mediante la función identidad. Esto no siempre funciona. Por ejemplo, al lanzar una moneda al aire, los dos posibles resultados son "cara" y "cruz". En este ejemplo, la variable aleatoria X podría asignar al resultado "cara" el número "0" ( {\displaystyle X(caras)=0}) y al resultado "cruz" el número "1" ( {\displaystyle X(colas)=1}).

Distribuciones de probabilidad discretas

La teoría de la probabilidad discreta se ocupa de los eventos que ocurren en espacios muestrales contables.

Ejemplos: tirar dados, experimentos con barajas de cartas, caminar al azar y lanzar monedas

Definición clásica : Inicialmente, la probabilidad de que ocurra un evento se definió como el número de casos favorables para el evento, sobre el número total de resultados posibles en un espacio muestral equiprobable: ver Definición clásica de probabilidad.

Por ejemplo, si el evento es "la ocurrencia de un número par cuando se lanza un dado", la probabilidad viene dada por {\tfrac{3}{6}}={\tfrac {1}{2}}, ya que 3 caras de las 6 tienen números pares y cada cara tiene la misma probabilidad de aparecer.

Definición moderna : la definición moderna comienza con un conjunto finito o numerable llamado espacio muestral, que se relaciona con el conjunto de todos los resultados posibles en sentido clásico, denotado por \Omega. Entonces se supone que para cada elemento x\en \Omega\,, un valor de "probabilidad" intrínseco f(x)\,se adjunta, que cumple las siguientes propiedades:

  1. f(x)\in [0,1]{\mbox{ para todo }}x\in \Omega \,;
  2. \sum _{x\in \Omega }f(x)=1\,.

Es decir, la función de probabilidad f ( x ) se encuentra entre cero y uno para cada valor de x en el espacio muestral Ω , y la suma de f ( x ) sobre todos los valores x en el espacio muestral Ω es igual a 1. Un evento se define como cualquier subconjunto Y\,del espacio muestral \Omega \,. La probabilidad del evento Y\,Se define como P(E)=\sum _{x\in E}f(x)\,.

Entonces, la probabilidad de todo el espacio muestral es 1 y la probabilidad del evento nulo es 0.

La función f(x)\,mapear un punto en el espacio de muestra al valor de "probabilidad" se llama función de masa de probabilidad abreviada como pmf . La definición moderna no trata de responder cómo se obtienen las funciones de masa de probabilidad; en cambio, construye una teoría que asume su existencia .

Distribuciones de probabilidad continuas

La teoría de la probabilidad continua se ocupa de los eventos que ocurren en un espacio muestral continuo.

Definición clásica : La definición clásica se rompe cuando se enfrenta con el caso continuo. Véase la paradoja de Bertrand.

Definición moderna : si el espacio muestral de una variable aleatoria X es el conjunto de números reales ( \matemáticas {R}) o un subconjunto del mismo, entonces una función llamada función de distribución acumulativa (o cdf ) F\,existe, definido por F(x)=P(X\leq x)\,. Es decir, F ( x ) devuelve la probabilidad de que X sea ​​menor o igual que x .

La cdf necesariamente satisface las siguientes propiedades.

  1. F\,es una función continua a la derecha monótonamente no decreciente;
  2. \lim _{x\rightarrow -\infty}F(x)=0\,;
  3. \lim _{x\rightarrow \infty}F(x)=1\,.

Si F\,es absolutamente continua, es decir, su derivada existe e integrando la derivada nos da de nuevo la función de distribución acumulada, entonces se dice que la variable aleatoria X tiene una función de densidad de probabilidad o pdf o simplemente densidad  f(x)={\frac{dF(x)}{dx}}\,.

para un conjunto E\subseteq \mathbb {R}, la probabilidad de que la variable aleatoria X esté en Y\,es P(X\in E)=\int _{x\in E}dF(x)\,.

En caso de que exista la función de densidad de probabilidad, esto se puede escribir como P(X\in E)=\int _{x\in E}f(x)\,dx\,.

Mientras que el pdf existe solo para variables aleatorias continuas, el cdf existe para todas las variables aleatorias (incluidas las variables aleatorias discretas) que toman valores en \mathbb {R} \,.

Estos conceptos pueden generalizarse para casos multidimensionales en \mathbb{R} ^{n}y otros espacios muestrales continuos.

Teoría de la probabilidad teórica de la medida

La razón de ser del tratamiento teórico de la medida de la probabilidad es que unifica los casos discretos y continuos, y hace que la diferencia sea una cuestión de qué medida se usa. Además, cubre distribuciones que no son ni discretas ni continuas ni mezclas de las dos.

Un ejemplo de tales distribuciones podría ser una combinación de distribuciones discretas y continuas, por ejemplo, una variable aleatoria que es 0 con probabilidad 1/2 y toma un valor aleatorio de una distribución normal con probabilidad 1/2. Todavía se puede estudiar hasta cierto punto considerando que tiene un pdf de (\delta[x]+\varphi(x))/2, donde \ delta [x]es la función delta de Dirac.

Es posible que otras distribuciones ni siquiera sean una mezcla, por ejemplo, la distribución de Cantor no tiene probabilidad positiva para ningún punto único, ni tampoco tiene densidad. El enfoque moderno de la teoría de la probabilidad resuelve estos problemas utilizando la teoría de la medida para definir el espacio de probabilidad:

Dado cualquier conjunto \Omega \,(también llamado espacio muestral ) y un σ-álgebra {\mathcal {F}}\,en él, una medida PAGS\,definido en {\mathcal {F}}\,se llama una medida de probabilidad si P(\Omega)=1.\,

Si {\mathcal {F}}\,es el álgebra σ de Borel en el conjunto de números reales, entonces hay una única medida de probabilidad en {\mathcal {F}}\,para cualquier cdf, y viceversa. Se dice que la medida correspondiente a una cdf es inducida por la cdf. Esta medida coincide con la pmf para variables discretas y la pdf para variables continuas, lo que hace que el enfoque teórico de la medida esté libre de falacias.

La probabilidad de un conjunto Y\,en el σ-álgebra {\mathcal {F}}\,Se define como P(E) = \int_{\omega\in E}\mu_{F} (d\omega)\,

donde la integración es con respecto a la medida \mu _{F}\,Inducido por F\,.

Además de proporcionar una mejor comprensión y unificación de las probabilidades discretas y continuas, el tratamiento de la teoría de la medida también nos permite trabajar con probabilidades fuera \mathbb{R} ^{n}, como en la teoría de los procesos estocásticos. Por ejemplo, para estudiar el movimiento browniano, la probabilidad se define en un espacio de funciones.

Cuando es conveniente trabajar con una medida dominante, se utiliza el teorema de Radon-Nikodym para definir una densidad como la derivada Radon-Nikodym de la distribución de probabilidad de interés con respecto a esta medida dominante. Las densidades discretas generalmente se definen como esta derivada con respecto a una medida de conteo sobre el conjunto de todos los resultados posibles. Las densidades para distribuciones absolutamente continuas se definen generalmente como esta derivada con respecto a la medida de Lebesgue. Si un teorema puede probarse en este marco general, se cumple tanto para distribuciones discretas como continuas, así como para otras; no se requieren pruebas separadas para distribuciones discretas y continuas.

Distribuciones de probabilidad clásicas

Ciertas variables aleatorias ocurren muy a menudo en la teoría de la probabilidad porque describen bien muchos procesos naturales o físicos. Sus distribuciones, por lo tanto, han ganado especial importancia en la teoría de la probabilidad. Algunas distribuciones discretas fundamentales son las distribuciones uniforme discreta, de Bernoulli, binomial, binomial negativa, de Poisson y geométrica. Las distribuciones continuas importantes incluyen las distribuciones continua uniforme, normal, exponencial, gamma y beta.

Convergencia de variables aleatorias

En la teoría de la probabilidad, hay varias nociones de convergencia para variables aleatorias. Se enumeran a continuación en orden de fuerza, es decir, cualquier noción posterior de convergencia en la lista implica convergencia de acuerdo con todas las nociones anteriores.Convergencia débilUna secuencia de variables aleatorias X_{1},X_{2},\puntos,\,converge débilmente a la variable aleatoria X\,si sus respectivas funciones de distribución acumulada  F_{1},F_{2},\puntos\,convergen a la función de distribución acumulativa F\,de X\,, lo que sea F\,es continuo La convergencia débil también se denomina convergencia en la distribución .Notación abreviada más común: {\displaystyle \displaystyle X_{n}\,{\xrightarrow {\mathcal {D}}}\,X}Convergencia en probabilidadLa secuencia de variables aleatorias X_{1},X_{2},\puntos\,se dice que converge hacia la variable aleatoria X\,en probabilidad si \lim _{n\rightarrow \infty}P\left(\left|X_{n}-X\right|\geq \varepsilon \right)=0para cada ε > 0.Notación abreviada más común: {\ estilo de pantalla \ estilo de pantalla X_{n}\,{\xrightarrow {P}}\,X}Fuerte convergenciaLa secuencia de variables aleatorias X_{1},X_{2},\puntos\,se dice que converge hacia la variable aleatoria X\,fuertemente si P(\lim _{n\rightarrow \infty }X_{n}=X)=1. La convergencia fuerte también se conoce como convergencia casi segura .Notación abreviada más común: {\displaystyle \displaystyle X_{n}\,{\xrightarrow {\mathrm {como} }}\,X}

Como indican los nombres, la convergencia débil es más débil que la convergencia fuerte. De hecho, una convergencia fuerte implica una convergencia en probabilidad, y una convergencia en probabilidad implica una convergencia débil. Las afirmaciones inversas no siempre son verdaderas.

Ley de los grandes números

La intuición común sugiere que si una moneda justa se lanza muchas veces, aproximadamente la mitad de las veces saldrá cara y la otra mitad saldrá cruz . Además, cuanto más a menudo se lanza la moneda, más probable es que la relación entre el número de caras y el número de cruces se acerque a la unidad. La teoría moderna de la probabilidad proporciona una versión formal de esta idea intuitiva, conocida como la ley de los grandes números.. Esta ley es notable porque no se asume en los fundamentos de la teoría de la probabilidad, sino que surge de estos fundamentos como un teorema. Dado que vincula las probabilidades derivadas teóricamente con su frecuencia real de ocurrencia en el mundo real, la ley de los grandes números se considera un pilar en la historia de la teoría estadística y ha tenido una amplia influencia.

La ley de los grandes números (LLN) establece que el promedio de la muestra {\overline {X}}_{n}={\frac {1}{n}}{\sum_{k=1}^{n}X_{k}}

de una secuencia de variables aleatorias independientes e idénticamente distribuidas X_{k}converge hacia su expectativa común \mu, siempre que la expectativa de |X_{k}|es finito

Es en las diferentes formas de convergencia de variables aleatorias que separa la débil y la fuerte ley de los grandes númerosLey débil: {\displaystyle \displaystyle {\overline {X}}_{n}\,{\xrightarrow {P}}\,\mu }por n\to\inftyLey fuerte: {\displaystyle \displaystyle {\overline {X}}_{n}\,{\xrightarrow {\mathrm {a.\,s.} }}\,\mu }por {\displaystyle n\to \infty .}

Del LLN se deduce que si un evento de probabilidad p se observa repetidamente durante experimentos independientes, la relación entre la frecuencia observada de ese evento y el número total de repeticiones converge hacia p .

Por ejemplo, si Y_{1},Y_{2},...\,son variables aleatorias de Bernoulli independientes que toman valores 1 con probabilidad p y 0 con probabilidad 1- p , entonces {\textrm {E}}(Y_{i})=ppor todo yo , para que {\bar {Y}}_{n}converge a p casi con seguridad.

Teorema del límite central

"El teorema del límite central (CLT) es uno de los grandes resultados de las matemáticas". (Capítulo 18 en ) Explica la aparición ubicua de la distribución normal en la naturaleza.

El teorema establece que el promedio de muchas variables aleatorias independientes e idénticamente distribuidas con varianza finita tiende hacia una distribución normal independientemente de la distribución seguida por las variables aleatorias originales. Formalmente, deja X_{1},X_{2},\puntos\,ser variables aleatorias independientes con media \muy varianza 0.\,">Entonces la sucesión de variables aleatorias Z_{n}={\frac {\sum _{i=1}^{n}(X_{i}-\mu )}{\sigma {\sqrt {n}}}}\,

converge en distribución a una variable aleatoria normal estándar.

Para algunas clases de variables aleatorias, el teorema del límite central clásico funciona bastante rápido (ver el teorema de Berry-Esseen), por ejemplo, las distribuciones con primer, segundo y tercer momento finitos de la familia exponencial; por otro lado, para algunas variables aleatorias de la variedad heavy tail y fat tail, funciona muy lentamente o puede no funcionar en absoluto: en tales casos, se puede usar el Teorema del Límite Central Generalizado (GCLT).