Valor atípico

Compartir Imprimir Citar

En estadística, un valor atípico (inglés: outlier) es un punto de datos que difiere significativamente de otras observaciones. Un valor atípico puede deberse a la variabilidad en la medición o puede indicar un error experimental; estos últimos a veces se excluyen del conjunto de datos. Un valor atípico puede causar serios problemas en los análisis estadísticos.

Los valores atípicos pueden ocurrir por casualidad en cualquier distribución, pero a menudo indican un error de medición o que la población tiene una distribución de colas pesadas. En el primer caso uno desea descartarlos o usar estadísticas que sean robustas a los valores atípicos, mientras que en el segundo caso indican que la distribución tiene un alto sesgo y que se debe ser muy cauteloso al usar herramientas o intuiciones que asumen una distribución normal. Una causa frecuente de valores atípicos es una mezcla de dos distribuciones, que pueden ser dos subpoblaciones distintas, o pueden indicar un "ensayo correcto" frente a un "error de medición"; esto está modelado por un modelo de mezcla.

En la mayoría de los muestreos de datos más grandes, algunos puntos de datos estarán más alejados de la media de la muestra de lo que se considera razonable. Esto puede deberse a errores sistemáticos incidentales o fallas en la teoría que generó una supuesta familia de distribuciones de probabilidad, o puede ser que algunas observaciones estén lejos del centro de los datos. Por lo tanto, los puntos atípicos pueden indicar datos defectuosos, procedimientos erróneos o áreas en las que una determinada teoría podría no ser válida. Sin embargo, en muestras grandes, es de esperar un pequeño número de valores atípicos (y no debido a ninguna condición anómala).

Los valores atípicos, al ser las observaciones más extremas, pueden incluir el máximo de la muestra o el mínimo de la muestra, o ambos, dependiendo de si son extremadamente altos o bajos. Sin embargo, el máximo y el mínimo de la muestra no siempre son valores atípicos porque es posible que no estén inusualmente lejos de otras observaciones.

La interpretación ingenua de estadísticas derivadas de conjuntos de datos que incluyen valores atípicos puede ser engañosa. Por ejemplo, si uno está calculando la temperatura promedio de 10 objetos en una habitación, y nueve de ellos están entre 20 y 25 grados centígrados, pero un horno está a 175 °C, la mediana de los datos estará entre 20 y 25 °C. C pero la temperatura media estará entre 35,5 y 40 °C. En este caso, la mediana refleja mejor la temperatura de un objeto muestreado aleatoriamente (pero no la temperatura de la habitación) que la media; interpretar ingenuamente la media como "una muestra típica", equivalente a la mediana, es incorrecto. Como se ilustra en este caso, los valores atípicos pueden indicar puntos de datos que pertenecen a una población diferente al resto del conjunto de la muestra.

Se dice que los estimadores capaces de hacer frente a valores atípicos son robustos: la mediana es una estadística robusta de tendencia central, mientras que la media no lo es. Sin embargo, la media es generalmente un estimador más preciso.

Ocurrencia y causas

En el caso de datos distribuidos normalmente, la regla de los tres sigma significa que aproximadamente 1 de cada 22 observaciones diferirá en el doble de la desviación estándar o más de la media, y 1 de cada 370 se desviará en tres veces la desviación estándar. En una muestra de 1000 observaciones, la presencia de hasta cinco observaciones que se desvían de la media en más de tres veces la desviación estándar está dentro del rango de lo que se puede esperar, siendo menos del doble del número esperado y, por lo tanto, dentro de 1 desviación estándar de el número esperado (ver distribución de Poisson) y no indicar una anomalía. Sin embargo, si el tamaño de la muestra es solo 100, solo tres de estos valores atípicos ya son motivo de preocupación, ya que son más de 11 veces el número esperado.

En general, si la naturaleza de la distribución de la población se conoce a priori, es posible probar si el número de valores atípicos se desvía significativamente de lo que se puede esperar: para un límite dado (por lo que las muestras superan el límite con probabilidad p) de un dada una distribución, el número de valores atípicos seguirá una distribución binomial con parámetro p, que generalmente se puede aproximar bien mediante la distribución de Poisson con λ = pn. Por lo tanto, si se toma una distribución normal con un límite de 3 desviaciones estándar de la media, p es aproximadamente 0,3 % y, por lo tanto, para 1000 ensayos, se puede aproximar el número de muestras cuya desviación supera los 3 sigmas mediante una distribución de Poisson con λ = 3.

Causas

Los valores atípicos pueden tener muchas causas anómalas. Un aparato físico para tomar medidas puede haber sufrido un mal funcionamiento transitorio. Puede haber habido un error en la transmisión o transcripción de los datos. Los valores atípicos surgen debido a cambios en el comportamiento del sistema, comportamiento fraudulento, error humano, error del instrumento o simplemente por desviaciones naturales en las poblaciones. Una muestra puede haber sido contaminada con elementos externos a la población que se está examinando. Alternativamente, un valor atípico podría ser el resultado de una falla en la teoría asumida, lo que requiere una mayor investigación por parte del investigador. Además, la aparición patológica de valores atípicos de cierta forma aparece en una variedad de conjuntos de datos, lo que indica que el mecanismo causal de los datos podría diferir en el extremo (efecto King).

Definiciones y detección

No existe una definición matemática rígida de lo que constituye un valor atípico; determinar si una observación es o no un valor atípico es, en última instancia, un ejercicio subjetivo. Hay varios métodos de detección de valores atípicos. Algunos son gráficos, como los diagramas de probabilidad normal. Otros están basados ​​en modelos. Los diagramas de caja son un híbrido.

Los métodos basados ​​en modelos que se usan comúnmente para la identificación asumen que los datos provienen de una distribución normal e identifican las observaciones que se consideran "poco probables" en función de la media y la desviación estándar:

Criterio de peirce

Se propone determinar en una serie de metroobservaciones el límite de error, más allá del cual pueden rechazarse todas las observaciones que conlleven un error tan grande, siempre que haya tantas como nortetales observaciones. El principio sobre el cual se propone resolver este problema es que las observaciones propuestas deben rechazarse cuando la probabilidad del sistema de errores obtenido al retenerlas es menor que la del sistema de errores obtenido al rechazarlas multiplicada por la probabilidad de haciendo tantas, y no más, observaciones anormales. (Citado en la nota editorial de la página 516 a Peirce (edición de 1982) de A Manual of Astronomy 2:558 de Chauvenet).

Las cercas de tukey

Otros métodos marcan observaciones basadas en medidas como el rango intercuartílico. Por ejemplo, si P_{1}y Q_{3}son los cuartiles inferior y superior respectivamente, entonces se podría definir un valor atípico como cualquier observación fuera del rango:{grande [}Q_{1}-k(Q_{3}-Q_{1}),Q_{3}+k(Q_{3}-Q_{1}){grande]}

para alguna constante no negativa k. John Tukey propuso esta prueba, donde k=1,5indica un "valor atípico" e k=3indica datos que están "lejos".

En detección de anomalías

En diversos dominios como, entre otros, estadísticas, procesamiento de señales, finanzas, econometría, fabricación, redes y minería de datos, la tarea de detección de anomalías puede adoptar otros enfoques. Algunos de estos pueden estar basados ​​en la distancia y en la densidad, como el factor local de valores atípicos (LOF). Algunos enfoques pueden usar la distancia a los k vecinos más cercanos para etiquetar las observaciones como valores atípicos o no atípicos.

Prueba Tau de Thompson modificada

La prueba de Thompson Tau modificada es un método utilizado para determinar si existe un valor atípico en un conjunto de datos. La fuerza de este método radica en el hecho de que tiene en cuenta la desviación estándar, el promedio de un conjunto de datos y proporciona una zona de rechazo determinada estadísticamente; proporcionando así un método objetivo para determinar si un punto de datos es un valor atípico. Cómo funciona: primero, se determina el promedio de un conjunto de datos. A continuación, se determina la desviación absoluta entre cada punto de datos y el promedio. En tercer lugar, se determina una región de rechazo utilizando la fórmula:{displaystyle {text{Región de rechazo}}{=}{frac {{t_{alpha /2}}{left(n-1right)}}{{sqrt {n}}{sqrt {n-2+{t_{alfa /2}^{2}}}}}}};

donde es el valor crítico de la distribución t{ estilo de pantalla  estilo de script {t_ { alfa /2}}} de Student con n -2 grados de libertad, n es el tamaño de la muestra y s es la desviación estándar de la muestra. Para determinar si un valor es un valor atípico: Calcular. Si δ > Región de rechazo, el punto de datos es un valor atípico. Si δ ≤ Región de rechazo, el punto de datos no es un valor atípico. {displaystyle scriptstyle delta =|(X-media(X))/s|}

La prueba de Thompson Tau modificada se usa para encontrar un valor atípico a la vez (el valor más grande de δ se elimina si es un valor atípico). Es decir, si se encuentra que un punto de datos es un valor atípico, se elimina del conjunto de datos y la prueba se aplica nuevamente con un nuevo promedio y una región de rechazo. Este proceso continúa hasta que no quedan valores atípicos en un conjunto de datos.

Algunos trabajos también han examinado valores atípicos para datos nominales (o categóricos). En el contexto de un conjunto de ejemplos (o instancias) en un conjunto de datos, la dureza de la instancia mide la probabilidad de que una instancia se clasifique incorrectamente (1-p(y|x)donde y es la etiqueta de clase asignada y x representa el valor del atributo de entrada para una instancia en el conjunto de entrenamiento). t). Idealmente, la dureza de la instancia se calcularía sumando el conjunto de todas las hipótesis posibles H:{begin{alineado}IH(langle x,yrangle)&=sum _{H}(1-p(y,x,h))p(h|t)\&=sum_{ H}p(h|t)-p(y,x,h)p(h|t)\&=1-sum _{H}p(y,x,h)p(h|t). end{alineado}}

En la práctica, esta formulación es inviable ya que H es potencialmente infinito y el cálculo p(a|t)es desconocido para muchos algoritmos. Por lo tanto, la dureza de la instancia se puede aproximar utilizando un subconjunto diverso Lsubconjunto H:{displaystyle IH_{L}(langle x,yrangle)=1-{frac {1}{|L|}}sum _{j=1}^{|L|}p(y|x,g_{j}(t,alfa))}

donde g_{j}(t,alfa)está la hipótesis inducida por el algoritmo de aprendizaje g_{j}entrenado en el conjunto de entrenamiento t con hiperparámetros alfa. La dureza de la instancia proporciona un valor continuo para determinar si una instancia es una instancia atípica.

Trabajar con valores atípicos

La elección de cómo tratar un valor atípico debe depender de la causa. Algunos estimadores son muy sensibles a los valores atípicos, en particular la estimación de matrices de covarianza.

Retención

Incluso cuando un modelo de distribución normal es apropiado para los datos que se analizan, se esperan valores atípicos para tamaños de muestra grandes y no deben descartarse automáticamente si ese es el caso. La aplicación debe usar un algoritmo de clasificación que sea resistente a los valores atípicos para modelar datos con puntos de valores atípicos que ocurren naturalmente.

Exclusión

La eliminación de datos atípicos es una práctica controvertida mal vista por muchos científicos e instructores de ciencias; Si bien los criterios matemáticos brindan un método objetivo y cuantitativo para el rechazo de datos, no hacen que la práctica sea más sólida desde el punto de vista científico o metodológico, especialmente en conjuntos pequeños o cuando no se puede suponer una distribución normal. El rechazo de valores atípicos es más aceptable en áreas de práctica donde se conocen con confianza el modelo subyacente del proceso que se mide y la distribución habitual del error de medición. Se puede excluir un valor atípico resultante de un error de lectura del instrumento, pero es deseable que al menos se verifique la lectura.

Los dos enfoques comunes para excluir valores atípicos son el truncamiento (o recorte) y Winsorising. Recortar descarta los valores atípicos, mientras que Winsorising reemplaza los valores atípicos con los datos "no sospechosos" más cercanos. La exclusión también puede ser una consecuencia del proceso de medición, como cuando un experimento no es completamente capaz de medir valores tan extremos, lo que resulta en datos censurados.

En problemas de regresión, un enfoque alternativo puede ser excluir solo los puntos que muestran un alto grado de influencia en los coeficientes estimados, usando una medida como la distancia de Cook.

Si se excluye un punto (o puntos) de datos del análisis de datos, esto debe indicarse claramente en cualquier informe posterior.

Distribuciones no normales

Debe considerarse la posibilidad de que la distribución subyacente de los datos no sea aproximadamente normal, teniendo "colas gordas". Por ejemplo, cuando se muestrea a partir de una distribución de Cauchy, la varianza de la muestra aumenta con el tamaño de la muestra, la media de la muestra no converge a medida que aumenta el tamaño de la muestra y se esperan valores atípicos a tasas mucho mayores que para una distribución normal. Incluso una ligera diferencia en la gordura de las colas puede marcar una gran diferencia en el número esperado de valores extremos.

Incertidumbres de pertenencia al conjunto

Un enfoque de pertenencia a conjuntos considera que la incertidumbre correspondiente a la i -ésima medida de un vector aleatorio desconocido x está representada por un conjunto Xi (en lugar de una función de densidad de probabilidad). Si no se producen valores atípicos, x debe pertenecer a la intersección de todos los X i. Cuando ocurren valores atípicos, esta intersección podría estar vacía, y deberíamos relajar un pequeño número de conjuntos Xi ( lo más pequeño posible) para evitar cualquier inconsistencia. Esto se puede hacer usando la noción de q -intersección relajada. Como se ilustra en la figura, la intersección relajada q corresponde al conjunto de todosx que pertenecen a todos los conjuntos excepto q de ellos. Se podría sospechar que los conjuntos X i que no intersecan la intersección relajada q son valores atípicos.

Modelos alternativos

En los casos en que se conozca la causa de los valores atípicos, puede ser posible incorporar este efecto en la estructura del modelo, por ejemplo, utilizando un modelo jerárquico de Bayes o un modelo mixto.