Tendencia central

ImprimirCitar
Valor estadístico que representa el centro o promedio de una distribución

En estadística, una tendencia central (o medida de tendencia central) es un valor central o típico para una distribución de probabilidad.

Colloquialmente, las medidas de tendencia central a menudo se denominan promedios. El término tendencia central data de finales de la década de 1920.

Las medidas de tendencia central más comunes son la media aritmética, la mediana y la moda. Se puede calcular una tendencia media para un conjunto finito de valores o para una distribución teórica, como la distribución normal. Ocasionalmente, los autores usan la tendencia central para denotar "la tendencia de los datos cuantitativos a agruparse en torno a algún valor central".

La tendencia central de una distribución generalmente se contrasta con su dispersión o variabilidad; la dispersión y la tendencia central son las propiedades a menudo caracterizadas de las distribuciones. El análisis puede juzgar si los datos tienen una tendencia central fuerte o débil en función de su dispersión.

Medidas

Lo siguiente puede aplicarse a datos unidimensionales. Dependiendo de las circunstancias, puede ser apropiado transformar los datos antes de calcular una tendencia central. Los ejemplos son elevar al cuadrado los valores o tomar logaritmos. Si una transformación es apropiada y lo que debería ser, depende en gran medida de los datos que se analizan.

Arithmetic media o simplemente, #
la suma de todas las mediciones divididas por el número de observaciones en el conjunto de datos.
Mediano
el valor medio que separa la mitad superior de la mitad inferior del conjunto de datos. La mediana y el modo son las únicas medidas de tendencia central que se pueden utilizar para los datos ordinal, en los cuales los valores se clasifican en relación entre sí pero no se miden absolutamente.
Modo
el valor más frecuente en el conjunto de datos. Esta es la única medida de tendencia central que se puede utilizar con datos nominales, que tienen asignaciones de categoría puramente cualitativas.
Media generalizada
Una generalización de los medios pitagóricos, especificada por un exponente.
Medio geométrico
la raíz n° del producto de los valores de datos, donde hay n de estos. Esta medida es válida sólo para datos que se miden absolutamente a escala estrictamente positiva.
Significado armónico
el recíproco de la media aritmética de los recíprocos de los valores de datos. Esta medida también es válida sólo para datos que se miden absolutamente en una escala estrictamente positiva.
Peso aritmética media
un medio aritmético que incorpora ponderación a ciertos elementos de datos.
Significado truncado o trimmed mean
la media aritmética de los valores de datos después de un cierto número o proporción de los valores de datos más altos y más bajos han sido descartados.
Interquartile media
un medio truncado basado en datos dentro del rango intercuartil.
Midrange
la media aritmética de los valores máximos y mínimos de un conjunto de datos.
Midhinge
la media aritmética de los cuartiles primero y tercero.
Significado cuasi-aritmético
Una generalización de la media generalizada, especificada por una función de inyección continua.
Trimean
la mediana aritmética ponderada y dos cuartiles.
Significado Winsorizado
un medio aritmético en el que los valores extremos son reemplazados por valores más cercanos a la mediana.

Cualquiera de los anteriores puede aplicarse a cada dimensión de datos multidimensionales, pero los resultados pueden no ser invariantes a las rotaciones del espacio multidimensional.

Mediano geométrico
el punto minimizando la suma de distancias a un conjunto de puntos de muestra. Esto es lo mismo que la mediana cuando se aplica a los datos de una dimensión, pero no es lo mismo que tomar la mediana de cada dimensión independientemente. No es invariable a la escalada diferente de las diferentes dimensiones.
Significado cuadrático (a menudo conocido como el cuadrado de la raíz media)
útil en ingeniería, pero no a menudo utilizado en estadísticas. Esto se debe a que no es un buen indicador del centro de la distribución cuando la distribución incluye valores negativos.
Profundidad multiplicacial
la probabilidad de que un simplex elegido aleatoriamente con vértices de la distribución dada contendrá el centro dado
Tukey median
un punto con la propiedad que cada medio espacio que contiene también contiene muchos puntos de muestra

Soluciones a problemas variacionales

Varias medidas de tendencia central se pueden caracterizar por resolver un problema variacional, en el sentido del cálculo de variaciones, es decir, minimizar la variación desde el centro. Es decir, dada una medida de dispersión estadística, se pide una medida de tendencia central que minimice la variación: tal que la variación desde el centro sea mínima entre todas las opciones de centro. En una broma, "la dispersión precede a la ubicación". Estas medidas se definen inicialmente en una dimensión, pero se pueden generalizar a múltiples dimensiones. Este centro puede o no ser único. En el sentido de espacios Lp, la correspondencia es:

LpdispersiónTendencia central
L0ratio de variación modo
L1media absoluta desviación mediana (mediana geométrica)
L2Desviación estándar media (centroide)
LJUEGOmáxima desviación mitad de período

Las funciones asociadas se denominan p-normas: respectivamente 0-"norma", 1-norma, 2-norma y ∞-norma. La función correspondiente al espacio L0 no es una norma y, por lo tanto, a menudo se la menciona entre comillas: 0-&# 34;norma".

En ecuaciones, para un conjunto de datos dado (finito) X, considerado como un vector x = (x1,…,xn), la dispersión sobre un punto c es la "distancia" de x al vector constante c = (c,…,c) en el p-norma (normalizado por el número de puntos n):

fp()c)=.x− − c.p:=()1n.. i=1nSilencioxi− − cSilenciop)1/p{displaystyle f_{p}(c)=leftfnMitbf {x} - Mathbf {c} {fn}be} ¿Por qué?

Para p = 0 y p = ∞ estas funciones se definen tomando límites, respectivamente como p → 0 y p → ∞. Para p = 0 los valores límite son 00 = 0 y a0 = 0 o a ≠ 0, por lo que la diferencia se convierte simplemente en igualdad, por lo que la norma 0 cuenta el número de puntos desiguales. Para p = ∞ domina el número más grande y, por lo tanto, la norma ∞ es la diferencia máxima.

Singularidad

La media (L2 centro) y el rango medio (L centro) son únicos (cuando existen), mientras que la mediana (L1 centro) y la moda (L0 centro) no son en general único. Esto puede entenderse en términos de convexidad de las funciones asociadas (funciones coercitivas).

La norma 2 y la norma ∞ son estrictamente convexas y, por lo tanto (por optimización convexa), el minimizador es único (si existe) y existe para distribuciones acotadas. Por lo tanto, la desviación estándar sobre la media es menor que la desviación estándar sobre cualquier otro punto, y la desviación máxima sobre el rango medio es menor que la desviación máxima sobre cualquier otro punto.

La norma 1 no es estrictamente convexa, mientras que se necesita una convexidad estricta para garantizar la unicidad del minimizador. En consecuencia, la mediana (en este sentido de minimización) no es en general única y, de hecho, cualquier punto entre los dos puntos centrales de una distribución discreta minimiza la desviación absoluta promedio.

El 0-"norma" no es convexo (por lo tanto, no es una norma). En consecuencia, la moda no es única; por ejemplo, en una distribución uniforme cualquier punto es la moda.

Agrupación

En lugar de un único punto central, se pueden solicitar múltiples puntos de modo que se minimice la variación de estos puntos. Esto conduce al análisis de conglomerados, en el que cada punto del conjunto de datos se agrupa con el "centro" más cercano. Más comúnmente, el uso de la norma 2 generaliza el agrupamiento de medias a k-medias, mientras que el uso de la norma 1 generaliza el agrupamiento de medianas (geométricas) a k-medias. El uso de la norma 0 simplemente generaliza la moda (valor más común) para usar los valores más comunes de k como centros.

A diferencia de las estadísticas de un solo centro, este agrupamiento multicéntrico en general no puede calcularse en una expresión de forma cerrada y, en cambio, debe calcularse o aproximarse mediante un método iterativo; un enfoque general son los algoritmos de maximización de expectativas.

Geometría de la información

La noción de un "centro" ya que minimizar la variación se puede generalizar en la geometría de la información como una distribución que minimiza la divergencia (una distancia generalizada) de un conjunto de datos. El caso más común es la estimación de máxima verosimilitud, donde la estimación de máxima verosimilitud (MLE) maximiza la probabilidad (minimiza la sorpresa esperada), que se puede interpretar geométricamente utilizando la entropía para medir la variación: la MLE minimiza la entropía cruzada (equivalentemente, entropía relativa, Kullback– divergencia de Leibler).

Un ejemplo simple de esto es para el centro de datos nominales: en lugar de usar la moda (el único 'centro' de un solo valor), a menudo se usa la medida empírica (la distribución de frecuencia dividida por la tamaño de la muestra) como un "centro". Por ejemplo, dados datos binarios, digamos cara o cruz, si un conjunto de datos consta de 2 caras y 1 cruz, entonces la moda es "cara", pero la medida empírica es 2/3 cara, 1/3 colas, lo que minimiza la entropía cruzada (sorpresa total) del conjunto de datos. Esta perspectiva también se usa en el análisis de regresión, donde los mínimos cuadrados encuentran la solución que minimiza las distancias desde ella, y de manera análoga en la regresión logística, una estimación de máxima verosimilitud minimiza la sorpresa (distancia de información).

Relaciones entre la media, la mediana y la moda

Para las distribuciones unimodales, los siguientes límites son conocidos y precisos:

SilencioSilencio Silencio − − μ μ Silencioσ σ ≤ ≤ 3,{displaystyle {frac {theta -mu Silencio} {sigma}leq {sqrt {3}}}}
Silencio.. − − μ μ Silencioσ σ ≤ ≤ 0.6,{displaystyle {frac {fnMicroc {fnfnMicrosoft\fn\\fnfn\\fn\\\\\\\\fn\fn\\\\\fn\\\\\\\\\\\\\\\\\\\cH\\\\\\\\\\\\\\\\\\\cH\\\\\\\\\\\\\\\\\\\\cH\\\\\\\\\\\\\\\\\\\\\\\\ -mu ¿Qué?
SilencioSilencio Silencio − − .. Silencioσ σ ≤ ≤ 3,{displaystyle {frac {theta -nu ¿Qué?

donde μ es la media, ν es la mediana, θ es la moda y σ es la desviación estándar.

Para cada distribución,

Silencio.. − − μ μ Silencioσ σ ≤ ≤ 1.{displaystyle {frac {fnfnfnfnfnfn\fn\\fn\fn\fn\\\\\\\fn\\fn\\\\\fn\\\\\\\\\\\fn\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\fn\\\\\\\\\\\\\\\fn\\\\\\\\\\\\\\\\\\\\\\\\ -mu Silencio. }leq 1.}

Contenido relacionado

Estadísticas descriptivas

Vector unitario

En matemáticas, a vector en un espacio vectorial normalizado es un vector de longitud 1. Un vector de unidad es a menudo denotado por una letra minúscula...

Grupo sencillo

Más resultados...
Tamaño del texto:
Copiar