Winsorizar
Winsorización o winsorización es la transformación de las estadísticas limitando los valores extremos en los datos estadísticos para reducir el efecto de valores atípicos posiblemente espurios. Lleva el nombre del ingeniero convertido en bioestadístico Charles P. Winsor (1895-1951). El efecto es el mismo que el recorte en el procesamiento de señales.
La distribución de muchas estadísticas puede estar fuertemente influenciada por los outliers. Una estrategia típica es establecer todos los outliers a un percentil especificado de los datos; por ejemplo, un 90% de Winsorization vería todos los datos por debajo del 5to percentil fijado al 5o percentil, y datos por encima del 95o percentil fijado al 95o percentil. Los estimadores Winsorized son generalmente más robustos para los outliers que sus formas más estándar, aunque hay alternativas, como el recortado, que lograrán un efecto similar.
Ejemplo
Considere el conjunto de datos que consta de:
- {92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, −40, 101, 86, 85, 15, 89, 89, 28, ; 5 -, 41} (N = 20, significa = 101.5)
Los datos por debajo del percentil 5 se encuentran entre −40 y −5, mientras que los datos por encima del percentil 95 se encuentran entre 101 y 1053 (los valores pertinentes se muestran en negrita); en consecuencia, una winsorización del 90% daría como resultado lo siguiente:
- {92, 19, 101, 58, 101, 91, 26, 78, 10, 13, ; 5 -, 101, 86, 85, 15, 89, 89, 28, ; 5 -, 41} (N = 20, significa = 55.65)
Después de la winsorización, la media ha caído a casi la mitad de su valor anterior y, en consecuencia, está más en línea con los datos que representa.
Python puede winsorizar datos usando la biblioteca SciPy:
desde scipy.stats.mstats importación winsorizewinsorize[92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41] límites=[0,05, 0,05])
R puede winsorizar datos usando el paquete DescTools:
biblioteca()DescTools)a.c()92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41)DescTools::Winsorize()a, probs = c()0,05, 0.95)
Distinción de recorte
Tenga en cuenta que winsorizar no equivale simplemente a excluir datos, que es un procedimiento más simple, llamado recorte o truncamiento, sino que es un método de censura de datos.
En un estimador recortado, los valores extremos se descartan; en un estimador winsorizado, los valores extremos se reemplazan por ciertos percentiles (el mínimo y el máximo recortados).
Por tanto, una media winsorizada no es lo mismo que una media truncada. Por ejemplo, la media recortada del 10% es el promedio del percentil 5 al 95 de los datos, mientras que la media winsorizada del 90% establece el 5% inferior en el percentil 5, el 5% superior en el percentil 95 y luego promedia el datos. En el ejemplo anterior la media recortada se obtendría del conjunto más pequeño:
- {92, 19, 101, 58, 91, 26, 78, 10, 13, 101, 86, 85, 15, 89, 89, 28, ; 5 -, 41} (N = 18, significa = 56.5)
En este caso, la media winsorizada se puede expresar de manera equivalente como un promedio ponderado de la media truncada y los percentiles 5 y 95 (para la media winsorizada al 10 %, 0,05 veces el percentil 5, 0,9 veces la media recortada al 10 %, y 0,05 veces el percentil 95), aunque en general las estadísticas winsorizadas no necesitan expresarse en términos de la estadística recortada correspondiente.
Más formalmente, son distintos porque las estadísticas de orden no son independientes.
Usos
La winsorización se utiliza en el contexto de la metodología de encuestas para "recortar" ponderaciones extremas de falta de respuesta en la encuesta.
También se utiliza en la construcción de algunos índices bursátiles cuando se analiza el rango de ciertos factores (por ejemplo, crecimiento y valor) para acciones particulares.
Contenido relacionado
Conjunto vacío
Historia de la lógica
Ley de los grandes números