Distribución marginal

Compartir Imprimir Citar

En teoría de probabilidad y estadística, la distribución marginal de un subconjunto de una colección de variables aleatorias es la distribución de probabilidad de las variables contenidas en el subconjunto. Da las probabilidades de varios valores de las variables en el subconjunto sin referencia a los valores de las otras variables. Esto contrasta con una distribución condicional, que da las probabilidades supeditadas a los valores de las otras variables.

Las variables marginales son aquellas variables en el subconjunto de variables que se retienen. Estos conceptos son "marginales" porque se pueden encontrar sumando valores en una tabla a lo largo de filas o columnas y escribiendo la suma en los márgenes de la tabla. La distribución de las variables marginales (la distribución marginal) se obtiene marginando, es decir, centrándose en las sumas en el margen, sobre la distribución de las variables que se descartan, y se dice que las variables descartadas han sido marginadas.

El contexto aquí es que los estudios teóricos que se están realizando, o el análisis de datos que se está realizando, involucran un conjunto más amplio de variables aleatorias, pero esa atención se limita a un número reducido de esas variables. En muchas aplicaciones, un análisis puede comenzar con una colección dada de variables aleatorias, luego extender el conjunto definiendo otras nuevas (como la suma de las variables aleatorias originales) y finalmente reducir el número poniendo interés en la distribución marginal de una variable aleatoria. subconjunto (como la suma). Se pueden realizar varios análisis diferentes, cada uno de los cuales trata un subconjunto diferente de variables como variables marginales.

Definición

Función de masa de probabilidad marginal

Dada una distribución conjunta conocida de dos variables aleatorias discretas, por ejemplo, X e Y, la distribución marginal de cualquiera de las variables (por ejemplo, X) es la distribución de probabilidad de X cuando los valores de Y no se toman en consideración. Esto se puede calcular sumando la distribución de probabilidad conjunta sobre todos los valores de Y. Naturalmente, lo contrario también es cierto: la distribución marginal se puede obtener para Y sumando los valores separados de X.{displaystyle p_{X}(x_{i})=sum_{j}p(x_{i},y_{j})}, y{displaystyle p_{Y}(y_{j})=sum_{i}p(x_{i},y_{j})}

XYx1 _x2 _x3 _x4 _p Y (y) ↓
año 14/322/321/321/328/32
2 años3/326/323/323/3215/32
y 39/320009/32
p X (x) →dieciséis/328/324/324/3232/32

Una probabilidad marginal siempre se puede escribir como un valor esperado:

{displaystyle p_{X}(x)=int _{y}p_{Xmid Y}(xmid y),p_{Y}(y),mathrm {d} y=nombre del operador {E} _{Y}[p_{Xmid Y}(xmid y)];.}

Intuitivamente, la probabilidad marginal de X se calcula examinando la probabilidad condicional de X dado un valor particular de Y, y luego promediando esta probabilidad condicional sobre la distribución de todos los valores de Y.

Esto se desprende de la definición de valor esperado (después de aplicar la ley del estadístico inconsciente)

{displaystyle operatorname {E} _{Y}[f(Y)]=int _{y}f(y)p_{Y}(y),mathrm {d} y.}

Por tanto, la marginación proporciona la regla para la transformación de la distribución de probabilidad de una variable aleatoria Y y otra variable aleatoria X = g (Y):

{displaystyle p_{X}(x)=int _{y}p_{Xmid Y}(xmid y),p_{Y}(y),mathrm {d} y=int _ {y}delta {grande (}xg(y){grande)},p_{Y}(y),mathrm {d} y.}

Función de densidad de probabilidad marginal

Dadas dos variables aleatorias continuas X e Y cuya distribución conjunta se conoce, la función de densidad de probabilidad marginal se puede obtener integrando la distribución de probabilidad conjunta, f, sobre Y, y viceversa. Es decir{displaystyle f_{X}(x)=int_{c}^{d}f(x,y),dy,} y {displaystyle f_{Y}(y)=int _{a}^{b}f(x,y),dx}

donde xen [a,b], y { estilo de visualización y  en [c, d]}.

Función de distribución acumulada marginal

Encontrar la función de distribución acumulativa marginal a partir de la función de distribución acumulativa conjunta es fácil. Recordar que:

Si X e Y conjuntamente toman valores en [ a, b ] × [ c, d ] entonces{ Displaystyle F_ {X} (x) = F (x, d)}y{displaystyle F_{Y}(y)=F(b,y)}

Si d es ∞, entonces esto se convierte en un límite {textstyle F_{X}(x)=lim_{yto infty}F(x,y)}. Del mismo modo para F_Y(y).

Distribución marginal frente a distribución condicional

Definición

La probabilidad marginal es la probabilidad de que ocurra un solo evento, independiente de otros eventos. Una probabilidad condicional, por otro lado, es la probabilidad de que ocurra un evento dado que ya ha ocurrido otro evento específico. Esto significa que el cálculo de una variable depende de otra variable.

La distribución condicional de una variable dada otra variable es la distribución conjunta de ambas variables dividida por la distribución marginal de la otra variable. Es decir,

Ejemplo

Supongamos que hay datos de un salón de clases de 200 estudiantes sobre la cantidad de tiempo estudiado (X) y el porcentaje de respuestas correctas (Y). Suponiendo que X e Y son variables aleatorias discretas, la distribución conjunta de X e Y puede describirse enumerando todos los valores posibles de p (x i, y j), como se muestra en la Tabla.3.

XYTime studied (minutes)
% correctox1 (0-20)x2 (21-40)x3 (41-60)× 4 (>60)p Y (y) ↓
año 1 (0-20)2/200008/20010/200
años 2 (21-40 )10/2002/2008/200020/200
años 3 (41-59 )2/2004/20032/20032/20070/200
años 4 (60-79 )020/20030/20010/20060/200
años 5 (80-100 )04/200dieciséis/20020/20040/200
p X (x) →14/20030/20086/20070/2001

La distribución marginal se puede utilizar para determinar cuántos estudiantes obtuvieron 20 o menos: , lo que significa 10 estudiantes o el 5 %.

La distribución condicional se puede utilizar para determinar la probabilidad de que un estudiante que estudió 60 minutos o más obtenga una puntuación de 20 o menos: , lo que significa que hay alrededor de un 11 % de probabilidad de obtener 20 después de haber estudiado durante al menos 60 minutos.

Ejemplo del mundo real

Suponga que se va a calcular la probabilidad de que un peatón sea atropellado por un automóvil, mientras cruza la calle en un paso de peatones, sin prestar atención al semáforo. Sea H una variable aleatoria discreta que toma un valor de {Hit, Not Hit}. Sea L (para el semáforo) una variable aleatoria discreta que toma un valor de {Rojo, Amarillo, Verde}.

Siendo realistas, H dependerá de L. Es decir, P(H = Hit) tomará diferentes valores dependiendo de si L es rojo, amarillo o verde (y lo mismo para P(H = Not Hit)). Por ejemplo, es mucho más probable que una persona sea atropellada por un automóvil cuando intenta cruzar mientras las luces para el tráfico perpendicular están en verde que si están en rojo. En otras palabras, para cualquier posible par de valores de H y L, se debe considerar la distribución de probabilidad conjunta de H y L para encontrar la probabilidad de que ese par de eventos ocurran juntos si el peatón ignora el estado de la luz.

Sin embargo, al tratar de calcular la probabilidad marginal P(H = Hit), lo que se busca es la probabilidad de que H = Hit en la situación en la que se desconoce el valor particular de L y en la que el peatón ignora el estado de la luz.. En general, un peatón puede ser atropellado si las luces son rojas O si las luces son amarillas O si las luces son verdes. Entonces, la respuesta para la probabilidad marginal se puede encontrar sumando P(H | L) para todos los valores posibles de L, con cada valor de L ponderado por su probabilidad de ocurrir.

Aquí hay una tabla que muestra las probabilidades condicionales de ser golpeado, dependiendo del estado de las luces. (Tenga en cuenta que las columnas de esta tabla deben sumar 1 porque la probabilidad de acertar o no es 1 independientemente del estado de la luz).

LHRojoAmarilloVerde
No pegar0.990.90.2
Pegar0.010.10.8

Para encontrar la distribución de probabilidad conjunta, se requieren más datos. Por ejemplo, suponga que P(L = rojo) = 0,2, P(L = amarillo) = 0,1 y P(L = verde) = 0,7. Multiplicar cada columna en la distribución condicional por la probabilidad de que ocurra esa columna da como resultado la distribución de probabilidad conjunta de H y L, dada en el bloque central de entradas de 2×3. (Tenga en cuenta que las celdas en este bloque de 2 × 3 suman 1).

LHRojoAmarilloVerdeProbabilidad marginal P(H)
No pegar0.1980.090.140.428
Pegar0.0020.010,560.572
Total0.20.10.71

La probabilidad marginal P(H = Hit) es la suma de 0,572 a lo largo de la fila H = Hit de esta tabla de distribución conjunta, ya que esta es la probabilidad de ser golpeado cuando las luces son rojas O amarillas O verdes. De manera similar, la probabilidad marginal de que P(H = No acierto) sea la suma a lo largo de la fila H = No acierto.

Distribuciones multivariadas

Para distribuciones multivariadas, se aplican fórmulas similares a las anteriores con los símbolos X y/o Y interpretados como vectores. En particular, cada sumatoria o integración sería sobre todas las variables excepto las contenidas en X.

Eso significa que si X 1, X 2,…, X n son variables aleatorias discretas, entonces la función de masa de probabilidad marginal debería ser

{displaystyle p_{X_{i}}(k)=sum p(x_{1},x_{2},dots,x_{i-1},k,x_{i+1},dots, x_{n});}

si X 1, X 2,…, X n son variables aleatorias continuas, entonces la función de densidad de probabilidad marginal debe ser

{displaystyle f_{X_{i}}(x_{i})=int_{-infty}^{infty}int_{-infty}^{infty}int_{-infty }^{infty}cdotsint_{-infty}^{infty}f(x_{1},x_{2},dots,x_{n})dx_{1}dx_{2} cdots dx_{i-1}dx_{i+1}cdots dx_{n}.}