Winsorizar

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Transformación de estadísticas limitando valores extremos

Winsorización o winsorización es la transformación de las estadísticas limitando los valores extremos en los datos estadísticos para reducir el efecto de valores atípicos posiblemente espurios. Lleva el nombre del ingeniero convertido en bioestadístico Charles P. Winsor (1895-1951). El efecto es el mismo que el recorte en el procesamiento de señales.

La distribución de muchas estadísticas puede estar fuertemente influenciada por los outliers. Una estrategia típica es establecer todos los outliers a un percentil especificado de los datos; por ejemplo, un 90% de Winsorization vería todos los datos por debajo del 5to percentil fijado al 5o percentil, y datos por encima del 95o percentil fijado al 95o percentil. Los estimadores Winsorized son generalmente más robustos para los outliers que sus formas más estándar, aunque hay alternativas, como el recortado, que lograrán un efecto similar.

Ejemplo

Considere el conjunto de datos que consta de:

{92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, −40, 101, 86, 85, 15, 89, 89, 28, ; 5 -, 41} (N = 20, significa = 101.5)

Los datos por debajo del percentil 5 se encuentran entre −40 y −5, mientras que los datos por encima del percentil 95 se encuentran entre 101 y 1053 (los valores pertinentes se muestran en negrita); en consecuencia, una winsorización del 90% daría como resultado lo siguiente:

{92, 19, 101, 58, 101, 91, 26, 78, 10, 13, ; 5 -, 101, 86, 85, 15, 89, 89, 28, ; 5 -, 41} (N = 20, significa = 55.65)

Después de la winsorización, la media ha caído a casi la mitad de su valor anterior y, en consecuencia, está más en línea con los datos que representa.

Python puede winsorizar datos usando la biblioteca SciPy:

desde scipy.stats.mstats importación winsorizewinsorize[92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41] límites=[0,05, 0,05])

R puede winsorizar datos usando el paquete DescTools:

biblioteca()DescTools)a.c()92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41)DescTools::Winsorize()a, probs = c()0,05, 0.95)

Distinción de recorte

Tenga en cuenta que winsorizar no equivale simplemente a excluir datos, que es un procedimiento más simple, llamado recorte o truncamiento, sino que es un método de censura de datos.

En un estimador recortado, los valores extremos se descartan; en un estimador winsorizado, los valores extremos se reemplazan por ciertos percentiles (el mínimo y el máximo recortados).

Por tanto, una media winsorizada no es lo mismo que una media truncada. Por ejemplo, la media recortada del 10% es el promedio del percentil 5 al 95 de los datos, mientras que la media winsorizada del 90% establece el 5% inferior en el percentil 5, el 5% superior en el percentil 95 y luego promedia el datos. En el ejemplo anterior la media recortada se obtendría del conjunto más pequeño:

{92, 19, 101, 58, 91, 26, 78, 10, 13, 101, 86, 85, 15, 89, 89, 28, ; 5 -, 41} (N = 18, significa = 56.5)

En este caso, la media winsorizada se puede expresar de manera equivalente como un promedio ponderado de la media truncada y los percentiles 5 y 95 (para la media winsorizada al 10 %, 0,05 veces el percentil 5, 0,9 veces la media recortada al 10 %, y 0,05 veces el percentil 95), aunque en general las estadísticas winsorizadas no necesitan expresarse en términos de la estadística recortada correspondiente.

Más formalmente, son distintos porque las estadísticas de orden no son independientes.

Usos

La winsorización se utiliza en el contexto de la metodología de encuestas para "recortar" ponderaciones extremas de falta de respuesta en la encuesta.

También se utiliza en la construcción de algunos índices bursátiles cuando se analiza el rango de ciertos factores (por ejemplo, crecimiento y valor) para acciones particulares.

Contenido relacionado

Conjunto vacío

En matemáticas, el conjunto vacío es el conjunto único que no tiene elementos; su tamaño o cardinalidad es cero. Algunas teorías axiomáticas de...

Historia de la lógica

La historia de la lógica se ocupa del estudio del desarrollo de la ciencia de la inferencia válida tal como se encuentran en el Organon, encontraron una...

Ley de los grandes números

En la teoría de la probabilidad, la ley de los grandes números es un teorema que describe el resultado de realizar el mismo experimento un gran número de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save