Correlación

AjustarCompartirImprimirCitar

En estadística, correlación o dependencia es cualquier relación estadística, causal o no, entre dos variables aleatorias o datos bivariados. En el sentido más amplio, la correlación es cualquier asociación estadística, aunque en realidad se refiere al grado en que un par de variables están relacionadas linealmente. Ejemplos familiares de fenómenos dependientes incluyen la correlación entre la altura de los padres y su descendencia, y la correlación entre el precio de un bien y la cantidad que los consumidores están dispuestos a comprar, como se representa en la llamada curva de demanda.

Las correlaciones son útiles porque pueden indicar una relación predictiva que puede explotarse en la práctica. Por ejemplo, una empresa de servicios eléctricos puede producir menos energía en un día templado según la correlación entre la demanda de electricidad y el clima. En este ejemplo, existe una relación causal, porque el clima extremo hace que las personas usen más electricidad para calentar o enfriar. Sin embargo, en general, la presencia de una correlación no es suficiente para inferir la presencia de una relación causal (es decir, la correlación no implica causalidad).

Formalmente, las variables aleatorias son dependientes si no cumplen una propiedad matemática de independencia probabilística. En el lenguaje informal, correlación es sinónimo de dependencia . Sin embargo, cuando se usa en un sentido técnico, la correlación se refiere a cualquiera de varios tipos específicos de operaciones matemáticas entre las variables probadas y sus respectivos valores esperados. Esencialmente, la correlación es la medida de cómo dos o más variables se relacionan entre sí. Hay varios coeficientes de correlación, a menudo denotados \rhoo r, midiendo el grado de correlación. El más común de estos es el coeficiente de correlación de Pearson , que es sensible solo a una relación lineal entre dos variables (que puede estar presente incluso cuando una variable es una función no lineal de la otra). Se han desarrollado otros coeficientes de correlación, como la correlación de rangos de Spearman, para que sean más sólidos que los de Pearson, es decir, más sensibles a las relaciones no lineales. La información mutua también se puede aplicar para medir la dependencia entre dos variables.

Coeficiente producto-momento de Pearson

Definición

La medida más familiar de dependencia entre dos cantidades es el coeficiente de correlación producto-momento de Pearson (PPMCC), o "coeficiente de correlación de Pearson", comúnmente llamado simplemente "coeficiente de correlación". Se obtiene tomando el cociente de la covarianza de las dos variables en cuestión de nuestro conjunto de datos numéricos, normalizado a la raíz cuadrada de sus varianzas. Matemáticamente, uno simplemente divide la covarianza de las dos variables por el producto de sus desviaciones estándar. Karl Pearson desarrolló el coeficiente a partir de una idea similar pero ligeramente diferente de Francis Galton.

Un coeficiente de correlación de producto-momento de Pearson intenta establecer una línea de mejor ajuste a través de un conjunto de datos de dos variables al establecer esencialmente los valores esperados y el coeficiente de correlación de Pearson resultante indica qué tan lejos está el conjunto de datos real de los valores esperados. Dependiendo del signo del coeficiente de correlación de Pearson, podemos terminar con una correlación negativa o positiva si existe algún tipo de relación entre las variables de nuestro conjunto de datos.

El coeficiente de correlación de la población }{\ estilo de visualización \ rho _ {X, Y}}entre dos variables aleatorias Xy Ycon valores esperados }\mu _{X}y }{\ estilo de visualización \ mu _ {Y}}y desviaciones estándar }\sigma _{X}y }\sigma_YSe define como: {\displaystyle \rho _{X,Y}=\operatorname {corr} (X,Y)={\operatorname {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}= {\nombre del operador {E} [(X-\mu_{X})(Y-\mu_{Y})] \sobre \sigma_{X}\sigma_{Y}}}

donde }\nombre del operador {E}es el operador de valor esperado, }\nombre del operador {cov}significa covarianza, y }\nombre del operador {corr}es una notación alternativa ampliamente utilizada para el coeficiente de correlación. La correlación de Pearson se define solo si ambas desviaciones estándar son finitas y positivas. Una fórmula alternativa puramente en términos de momentos es: {\displaystyle \rho _{X,Y}={\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y) \over {\sqrt {\operatorname {E} ( X^{2})-\nombre del operador {E} (X)^{2}}}\cdot {\sqrt {\nombre del operador {E} (Y^{2})-\nombre del operador {E} (Y)^{ 2}}}}}

Propiedad de simetría

El coeficiente de correlación es simétrico: {\ estilo de visualización \ nombre del operador {corr} (X, Y) = \ nombre del operador {corr} (Y, X)}. Esto se verifica por la propiedad conmutativa de la multiplicación.

Correlación como producto

Dejar variables aleatorias Xy Ytienen desviaciones estándar 0}">y 0}">. Entonces: {\displaystyle \operatorname {corr} (X,Y)=\operatorname {corr} (X,\operatorname {E} (X\mid Y))\operatorname {corr} (\operatorname {E} (X\mid Y) ),Y)}

Correlación e independencia

Es un corolario de la desigualdad de Cauchy-Schwarz que el valor absoluto del coeficiente de correlación de Pearson no sea mayor que 1. Por lo tanto, el valor de un coeficiente de correlación oscila entre -1 y +1. El coeficiente de correlación es +1 en el caso de una relación lineal directa (creciente) perfecta (correlación ) , −1 en el caso de una relación lineal inversa (decreciente) perfecta (anticorrelación) y algún valor en el intervalo abierto (-1,1)en todos los demás casos, indicando el grado de dependencia lineal entre las variables. A medida que se acerca a cero, hay menos relación (más cerca de no correlacionado). Cuanto más cerca esté el coeficiente de −1 o 1, más fuerte será la correlación entre las variables.

Si las variables son independientes, el coeficiente de correlación de Pearson es 0, pero lo contrario no es cierto porque el coeficiente de correlación solo detecta dependencias lineales entre dos variables. {\displaystyle {\begin{alineado}X,Y{\text{independiente}}\quad &\Rightarrow \quad \rho _{X,Y}=0\quad (X,Y{\text{sin correlación}}) \\\rho _{X,Y}=0\quad (X,Y{\text{ no correlacionado}})\quad &\nRightarrow \quad X,Y{\text{independiente}}\end{alineado}}}

Por ejemplo, supongamos que la variable aleatoria Xse distribuye simétricamente alrededor de cero, y {\ estilo de visualización Y = X ^ {2}}. Entonces Yestá totalmente determinada por X, de modo que Xy Yson perfectamente dependientes, pero su correlación es cero; no están correlacionados. Sin embargo, en el caso especial cuando Xy Yson conjuntamente normales, la falta de correlación es equivalente a la independencia.

Aunque los datos no correlacionados no implican necesariamente independencia, se puede verificar si las variables aleatorias son independientes si su información mutua es 0.

Coeficiente de correlación de la muestra

Dada una serie de nortemedidas del par {\ estilo de visualización (X_ {i}, Y_ {i})}indexado por i=1,\ldots,n, el coeficiente de correlación de la muestra se puede utilizar para estimar la correlación de Pearson de la población {\ estilo de visualización \ rho _ {X, Y}}Entre Xy Y. El coeficiente de correlación de la muestra se define como {\displaystyle r_{xy}\quad {\overset {\underset {\mathrm {def} }{}}{=}}\quad {\frac {\sum \limits _{i=1}^{n}( x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{(n-1)s_{x}s_{y}}}={\frac {\ suma \limits _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sqrt {\sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\sum \limits_{i=1}^{n}(y_{i}-{\ barra {y}})^{2}}}},}

donde {\sobrelínea {x}}y {\sobrelínea {y}}son las medias muestrales de Xy Y, y s_{x}y s_{y}son las desviaciones estándar muestrales corregidas de Xy Y.

Expresiones equivalentes para r_{xy}son {\displaystyle {\begin{alineado}r_{xy}&={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{ns'_ {x}s'_{y}}}\\[5pt]&={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\ sqrt {n\sum x_{i}^{2}-(\sum x_{i})^{2}}}~{\sqrt {n\sum y_{i}^{2}-(\sum y_{ i})^{2}}}}}.\end{alineado}}}

donde {\displaystyle s'_{x}}y {\displaystyle s'_{y}}son las desviaciones estándar muestrales no corregidas de Xy Y.

Si Xy yson resultados de mediciones que contienen errores de medición, los límites realistas del coeficiente de correlación no son de −1 a +1, sino de un rango más pequeño. Para el caso de un modelo lineal con una sola variable independiente, el coeficiente de determinación (R al cuadrado) es el cuadrado de r_{xy}, Coeficiente producto-momento de Pearson.

Ejemplo

Considere la distribución de probabilidad conjunta de X e Y dada en la siguiente tabla.

yX−101
001/30
11/301/3

Para esta distribución conjunta, las distribuciones marginales son: {\displaystyle \mathrm {P} (X=x)={\begin{cases}{\frac {1}{3}}&\quad {\text{para }}x=0\\{\frac {2 {3}}&\quad {\text{para }}x=1\end{casos}}} {\displaystyle \mathrm {P} (Y=y)={\begin{cases}{\frac {1}{3}}&\quad {\text{para }}y=-1\\{\frac { 1}{3}}&\quad {\text{para }}y=0\\{\frac {1}{3}}&\quad {\text{para }}y=1\end{casos}} }

Esto produce las siguientes expectativas y variaciones: {\displaystyle \mu _{X}={\frac {2}{3}}} {\ estilo de visualización \ mu _ {Y} = 0} {\displaystyle \sigma _{X}^{2}={\frac {2}{9}}} {\displaystyle \sigma _{Y}^{2}={\frac {2}{3}}}

Por lo tanto: {\displaystyle {\begin{alineado}\rho_{X,Y}&={\frac {1}{\sigma_{X}\sigma_{Y}}}\mathrm {E} [(X-\ mu_{X})(Y-\mu_{Y})]\\[5pt]&={\frac {1}{\sigma_{X}\sigma_{Y}}}\sum_{x ,y}{(x-\mu _{X})(y-\mu _{Y})\mathrm {P} (X=x,Y=y)}\\[5pt]&=\left(1 -{\frac {2}{3}}\derecha)(-1-0){\frac {1}{3}}+\izquierda(0-{\frac {2}{3}}\derecha)( 0-0){\frac {1}{3}}+\left(1-{\frac {2}{3}}\right)(1-0){\frac {1}{3}}=0 .\end{alineado}}}

Coeficientes de correlación de rango

Los coeficientes de correlación de rangos, como el coeficiente de correlación de rangos de Spearman y el coeficiente de correlación de rangos de Kendall (τ), miden hasta qué punto, a medida que aumenta una variable, la otra tiende a aumentar, sin que sea necesario que ese aumento esté representado por una relación lineal. Si al aumentar una variable disminuye la otra, los coeficientes de correlación de rangos serán negativos. Es común considerar estos coeficientes de correlación de rangos como alternativas al coeficiente de Pearson, utilizados para reducir la cantidad de cálculo o para hacer que el coeficiente sea menos sensible a la no normalidad en las distribuciones. Sin embargo, este punto de vista tiene poca base matemática, ya que los coeficientes de correlación de rango miden un tipo diferente de relación que el coeficiente de correlación producto-momento de Pearson, y se ven mejor como medidas de un tipo diferente de asociación, en lugar de una medida alternativa de la población. coeficiente de correlación.

Para ilustrar la naturaleza de la correlación de rango y su diferencia con la correlación lineal, considere los siguientes cuatro pares de números (x, y):(0, 1), (10, 100), (101, 500), (102, 2000).

A medida que pasamos de cada par al siguiente par Xaumenta, y también y. Esta relación es perfecta, en el sentido de que un aumento en Xsiempre va acompañada de un aumento de y. Esto significa que tenemos una correlación de rango perfecta, y los coeficientes de correlación de Spearman y Kendall son 1, mientras que en este ejemplo el coeficiente de correlación producto-momento de Pearson es 0,7544, lo que indica que los puntos están lejos de estar en línea recta. De la misma manera si ysiempre disminuye cuando X aumenta , los coeficientes de correlación de rango serán −1, mientras que el coeficiente de correlación producto-momento de Pearson puede o no estar cerca de −1, dependiendo de qué tan cerca estén los puntos de una línea recta. Aunque en los casos extremos de correlación de rango perfecta, los dos coeficientes son iguales (siendo ambos +1 o ambos −1), este no suele ser el caso y, por lo tanto, los valores de los dos coeficientes no se pueden comparar de manera significativa. Por ejemplo, para los tres pares (1, 1) (2, 3) (3, 2) el coeficiente de Spearman es 1/2, mientras que el coeficiente de Kendall es 1/3.

Otras medidas de dependencia entre variables aleatorias

La información que da un coeficiente de correlación no es suficiente para definir la estructura de dependencia entre variables aleatorias. El coeficiente de correlación define completamente la estructura de dependencia solo en casos muy particulares, por ejemplo, cuando la distribución es una distribución normal multivariada. (Ver diagrama arriba.) En el caso de distribuciones elípticas caracteriza las (hiper-) elipses de igual densidad; sin embargo, no caracteriza completamente la estructura de dependencia (por ejemplo, los grados de libertad de una distribución t multivariante determinan el nivel de dependencia de la cola).

La correlación de distancia se introdujo para abordar la deficiencia de la correlación de Pearson que puede ser cero para las variables aleatorias dependientes; la correlación de distancia cero implica independencia.

El coeficiente de dependencia aleatoria es una medida de dependencia computacionalmente eficiente basada en cópulas entre variables aleatorias multivariadas. RDC es invariable con respecto a escalas no lineales de variables aleatorias, es capaz de descubrir una amplia gama de patrones de asociación funcional y toma valor cero en la independencia.

Para dos variables binarias, la razón de probabilidades mide su dependencia y toma un rango de números no negativos, posiblemente infinito: {\ estilo de visualización [0, + \ infinito]}. Las estadísticas relacionadas, como Yule's Y y Yule's Q , normalizan esto al rango de correlación. [-1, 1]. La razón de posibilidades se generaliza mediante el modelo logístico para modelar casos en los que las variables dependientes son discretas y puede haber una o más variables independientes.

La relación de correlación, la información mutua basada en la entropía, la correlación total, la correlación total dual y la correlación policórica también son capaces de detectar dependencias más generales, como lo es la consideración de la cópula entre ellas, mientras que el coeficiente de determinación generaliza el coeficiente de correlación a la regresión múltiple. .

Sensibilidad a la distribución de datos

El grado de dependencia entre las variables X e Y no depende de la escala en que se expresen las variables. Es decir, si estamos analizando la relación entre X e Y , la mayoría de las medidas de correlación no se ven afectadas al transformar en a + bX e Y en c + dY , donde a , b , c y d son constantes ( b y dsiendo positivo). Esto es cierto para algunas estadísticas de correlación, así como para sus análogos de población. Algunas estadísticas de correlación, como el coeficiente de correlación de rango, también son invariantes a las transformaciones monótonas de las distribuciones marginales de X y / o Y.

La mayoría de las medidas de correlación son sensibles a la forma en que se muestrean X e Y. Las dependencias tienden a ser más fuertes si se ven en un rango más amplio de valores. Así, si consideramos el coeficiente de correlación entre las estaturas de los padres y sus hijos sobre todos los varones adultos, y lo comparamos con el mismo coeficiente de correlación calculado cuando se seleccionan los padres entre 165 cm y 170 cm de altura, la correlación será más débil en este último caso. Se han desarrollado varias técnicas que intentan corregir la restricción del rango en una o ambas variables y se usan comúnmente en metanálisis; las más comunes son las ecuaciones de caso II y caso III de Thorndike.

Varias medidas de correlación en uso pueden no estar definidas para ciertas distribuciones conjuntas de X e Y. Por ejemplo, el coeficiente de correlación de Pearson se define en términos de momentos y, por lo tanto, no estará definido si los momentos no están definidos. Siempre se definen medidas de dependencia basadas en cuantiles. Las estadísticas basadas en muestras destinadas a estimar las medidas de dependencia de la población pueden o no tener propiedades estadísticas deseables, como ser imparciales o asintóticamente consistentes, según la estructura espacial de la población de la que se tomaron muestras de los datos.

La sensibilidad a la distribución de datos se puede utilizar con ventaja. Por ejemplo, la correlación escalada está diseñada para usar la sensibilidad al rango para seleccionar correlaciones entre componentes rápidos de series de tiempo. Al reducir el rango de valores de manera controlada, las correlaciones en escalas de tiempo largas se filtran y solo se revelan las correlaciones en escalas de tiempo cortas.

Matrices de correlación

La matriz de correlación de nortevariables aleatorias X_{1},\ldots,X_{n}es el n\veces nmatriz cuya (yo, j)la entrada es {\ estilo de visualización \ nombre del operador {corr} (X_ {i}, X_ {j})}. Así, las entradas diagonales son todas idénticamente unidad. Si las medidas de correlación utilizadas son coeficientes producto-momento, la matriz de correlación es la misma que la matriz de covarianza de las variables aleatorias estandarizadas {\ estilo de visualización X_ {i}/\ sigma (X_ {i})}por i=1,\puntos,n. Esto se aplica tanto a la matriz de correlaciones de población (en cuyo caso \sigmaes la desviación estándar de la población) y a la matriz de correlaciones muestrales (en cuyo caso \sigmadenota la desviación estándar de la muestra). En consecuencia, cada una es necesariamente una matriz semidefinida positiva. Además, la matriz de correlación es estrictamente definida positiva si ninguna variable puede tener todos sus valores generados exactamente como una función lineal de los valores de las demás.

La matriz de correlación es simétrica porque la correlación entre X_{yo}y X_{j}es lo mismo que la correlación entre X_{j}y X_{yo}.

Una matriz de correlación aparece, por ejemplo, en una fórmula para el coeficiente de determinación múltiple, una medida de bondad de ajuste en regresión múltiple.

En el modelado estadístico, las matrices de correlación que representan las relaciones entre variables se clasifican en diferentes estructuras de correlación, que se distinguen por factores como el número de parámetros necesarios para estimarlas. Por ejemplo, en una matriz de correlación intercambiable, todos los pares de variables se modelan con la misma correlación, por lo que todos los elementos no diagonales de la matriz son iguales entre sí. Por otro lado, una matriz autorregresiva se usa a menudo cuando las variables representan una serie de tiempo, ya que es probable que las correlaciones sean mayores cuando las mediciones están más cerca en el tiempo. Otros ejemplos incluyen independientes, no estructurados, dependientes de M y Toeplitz.

En el análisis exploratorio de datos, la iconografía de las correlaciones consiste en reemplazar una matriz de correlaciones por un diagrama donde las correlaciones “notables” están representadas por una línea sólida (correlación positiva), o una línea punteada (correlación negativa).

Matriz de correlación válida más cercana

En algunas aplicaciones (p. ej., la construcción de modelos de datos a partir de datos observados solo parcialmente), se desea encontrar la matriz de correlación "más cercana" a una matriz de correlación "aproximada" (p. ej., una matriz que normalmente carece de positividad semidefinida debido a la forma en que tiene sido computado).

En 2002, Higham formalizó la noción de proximidad utilizando la norma de Frobenius y proporcionó un método para calcular la matriz de correlación más cercana utilizando el algoritmo de proyección de Dykstra, cuya implementación está disponible como una API web en línea.

Esto despertó interés en el tema, con nuevos resultados teóricos (p. ej., cálculo de la matriz de correlación más cercana con estructura factorial ) y numéricos (p. ej., uso del método de Newton para calcular la matriz de correlación más cercana ) obtenidos en los años siguientes.

Falta de correlación e independencia de los procesos estocásticos

Del mismo modo para dos procesos estocásticos {\displaystyle \left\{X_{t}\right\}_{t\in {\mathcal {T}}}}y {\displaystyle \left\{Y_{t}\right\}_{t\in {\mathcal {T}}}}: Si son independientes, entonces no están correlacionados. Lo contrario de esta afirmación podría no ser cierto. Incluso si dos variables no están correlacionadas, es posible que no sean independientes entre sí.

Conceptos erróneos comunes

Correlación y causalidad

El dicho convencional de que "la correlación no implica causalidad" significa que la correlación no puede usarse por sí misma para inferir una relación causal entre las variables. Este dicho no debe interpretarse en el sentido de que las correlaciones no pueden indicar la existencia potencial de relaciones causales. Sin embargo, las causas que subyacen a la correlación, si las hay, pueden ser indirectas y desconocidas, y las altas correlaciones también se superponen con las relaciones de identidad (tautologías), donde no existe un proceso causal. En consecuencia, una correlación entre dos variables no es condición suficiente para establecer una relación causal (en cualquier dirección).

Una correlación entre la edad y la altura en los niños es causalmente transparente, pero una correlación entre el estado de ánimo y la salud en las personas lo es menos. ¿La mejora del estado de ánimo conduce a una mejor salud, o la buena salud conduce a un buen estado de ánimo, o ambas cosas? ¿O hay algún otro factor subyacente a ambos? En otras palabras, una correlación puede tomarse como evidencia de una posible relación causal, pero no puede indicar cuál podría ser la relación causal, si es que existe alguna.

Correlaciones lineales simples

El coeficiente de correlación de Pearson indica la fuerza de una relación lineal entre dos variables, pero su valor generalmente no caracteriza completamente su relación. En particular, si la media condicional de Ydado X, denotado {\ estilo de visualización \ nombre del operador {E} (Y \ medio X)}, no es lineal en X, el coeficiente de correlación no determinará completamente la forma de {\ estilo de visualización \ nombre del operador {E} (Y \ medio X)}.

La imagen adyacente muestra diagramas de dispersión del cuarteto de Anscombe, un conjunto de cuatro pares diferentes de variables creados por Francis Anscombe. El cuatro ylas variables tienen la misma media (7.5), varianza (4.12), correlación (0.816) y línea de regresión ( y  = 3 + 0.5 x). Sin embargo, como se puede observar en los gráficos, la distribución de las variables es muy diferente. El primero (arriba a la izquierda) parece estar distribuido normalmente y corresponde a lo que uno esperaría al considerar dos variables correlacionadas y siguiendo el supuesto de normalidad. El segundo (arriba a la derecha) no se distribuye normalmente; si bien se puede observar una relación obvia entre las dos variables, no es lineal. En este caso, el coeficiente de correlación de Pearson no indica que exista una relación funcional exacta: solo la medida en que esa relación puede aproximarse mediante una relación lineal. En el tercer caso (extremo inferior izquierdo), la relación lineal es perfecta, excepto por un valor atípico que ejerce suficiente influencia para reducir el coeficiente de correlación de 1 a 0,816. Por fin,

Estos ejemplos indican que el coeficiente de correlación, como estadística de resumen, no puede reemplazar el examen visual de los datos. A veces se dice que los ejemplos demuestran que la correlación de Pearson supone que los datos siguen una distribución normal, pero esto es solo parcialmente correcto. La correlación de Pearson se puede calcular con precisión para cualquier distribución que tenga una matriz de covarianza finita, que incluye la mayoría de las distribuciones encontradas en la práctica. Sin embargo, el coeficiente de correlación de Pearson (junto con la media y la varianza de la muestra) solo es una estadística suficiente si los datos se extraen de una distribución normal multivariada. Como resultado, el coeficiente de correlación de Pearson caracteriza completamente la relación entre variables si y solo si los datos se extraen de una distribución normal multivariante.

Distribución normal bivariada

si un par (X,Y)de variables aleatorias sigue una distribución normal bivariada, la media condicional (X \ mid Y)}\nombre del operador {E}(X\mid Y)es una función lineal de Y, y la media condicional (Y \ medio X)}{\ estilo de visualización \ nombre del operador {E} (Y \ medio X)}es una función lineal de X. El coeficiente de correlación }{\ estilo de visualización \ rho _ {X, Y}}Entre Xy Y, junto con las medias marginales y las varianzas de Xy Y, determina esta relación lineal: {\displaystyle \operatorname {E} (Y\mid X)=\operatorname {E} (Y)+\rho _{X,Y}\cdot \sigma _{Y}{\frac {X-\operatorname {E } (X)}{\sigma _{X}}},}

donde (X)}\nombre del operador {E}(X)y (Y)}{\ estilo de visualización \ nombre del operador {E} (Y)}son los valores esperados de Xy Y, respectivamente, y }\sigma _{X}y \sigma_Y son las desviaciones estándar de X y Y, respectivamente.


La correlación empírica r es una estimación del coeficiente de correlación \rho. Una estimación de distribución para {\displaystyle \pi (\rho |r)={\frac {\Gamma (\nu +1)}{{\sqrt {2\pi }}\Gamma (\nu +{\frac {1}{2} })}}(1-r^{2})^{\frac {\nu -1}{2}}\cdot (1-\rho ^{2})^{\frac {\nu -2}{ 2}}\cdot (1-r\rho )^{\frac {1-2\nu }{2}}F\!\left({\frac {3}{2}},-{\frac {1 {2}};\nu +{\frac {1}{2}};{\frac {1+r\rho }{2}}\right)}donde F es la función hipergeométrica gaussiana y 1}">. Esta densidad es tanto una densidad posterior bayesiana como una densidad de distribución de confianza óptima exacta.

Error estándar

Si Xy y son variables aleatorias, a la correlación se le asocia un error estándar que es: {\displaystyle SE_{r}={\frac {1-r^{2}}{\sqrt {(n-2)}}}} donde r es la correlación y norte el número de muestras.

Contenido relacionado

Más resultados...
Tamaño del texto: