Censura (estadísticas)
En estadística, la censura es una condición en la que el valor de una medición u observación se conoce solo parcialmente.
Por ejemplo, supongamos que se lleva a cabo un estudio para medir el impacto de un medicamento en la tasa de mortalidad. En dicho estudio, se puede saber que la edad de un individuo al momento de morir es al menos 75 años (pero puede ser más). Tal situación podría ocurrir si el individuo se retira del estudio a los 75 años, o si el individuo está vivo actualmente a la edad de 75 años.
La censura también se produce cuando un valor se encuentra fuera del rango de un instrumento de medición. Por ejemplo, una báscula de baño podría medir solo hasta 140 kg. Si se pesa a una persona de 160 kg utilizando la báscula, el observador solo sabría que el peso de la persona es de al menos 140 kg.
El problema de los datos censurados, en los que el valor observado de alguna variable es parcialmente conocido, está relacionado con el problema de los datos faltantes, en los que el valor observado de alguna variable es desconocido.
La censura no debe confundirse con la idea relacionada de truncamiento. Con la censura, las observaciones dan como resultado el conocimiento del valor exacto que se aplica o el conocimiento de que el valor se encuentra dentro de un intervalo. Con el truncamiento, las observaciones nunca dan como resultado valores fuera de un rango determinado: los valores de la población fuera del rango nunca se ven o nunca se registran si se ven. Tenga en cuenta que en estadística, el truncamiento no es lo mismo que el redondeo.
Tipos
- Censura de izquierda – un punto de datos está por debajo de cierto valor, pero es desconocido por cuánto.
- Censura intervalora – un punto de datos es en algún lugar en un intervalo entre dos valores.
- Censura derecha – un punto de datos está por encima de un valor determinado, pero es desconocido por cuánto.
- Tipo I censurando se produce si un experimento tiene un número conjunto de temas o artículos y detiene el experimento en un momento predeterminado, en cuyo momento cualquier sujeto restante es censurado.
- Censura tipo II se produce si un experimento tiene un número conjunto de temas o artículos y detiene el experimento cuando se observa que un número predeterminado ha fracasado; los temas restantes son entonces censurados.
- Aleatorio (o no informativo) censura es cuando cada sujeto tiene un tiempo de censura que es estadísticamente independiente de su tiempo de fracaso. El valor observado es el mínimo de los tiempos de censura y fracaso; sujetos cuyo tiempo de fracaso es mayor que su tiempo de censura son censurados con razón.
La censura por intervalos puede ocurrir cuando la observación de un valor requiere seguimientos o inspecciones. La censura por la izquierda y por la derecha son casos especiales de censura por intervalos, con el comienzo del intervalo en cero o el final en infinito, respectivamente.
Los métodos de estimación para utilizar datos censurados por la izquierda varían, y no todos los métodos de estimación pueden ser aplicables o los más confiables para todos los conjuntos de datos.
Un error común con los datos de intervalos de tiempo es clasificar como intervalos censurados a la izquierda aquellos en los que se desconoce el tiempo de inicio. En estos casos, tenemos un límite inferior para el intervalo de tiempo, por lo que los datos están censurados a la derecha (¡a pesar de que el punto de inicio que falta está a la izquierda del intervalo conocido cuando se los ve como una línea de tiempo!).
Análisis
Se pueden utilizar técnicas especiales para manejar datos censurados. Las pruebas con tiempos de falla específicos se codifican como fallas reales; los datos censurados se codifican según el tipo de censura y el intervalo o límite conocido. Los programas de software especiales (a menudo orientados a la confiabilidad) pueden realizar una estimación de máxima verosimilitud para estadísticas de resumen, intervalos de confianza, etc.
Epidemiología
Uno de los primeros intentos de analizar un problema estadístico que involucraba datos censurados fue el análisis de los datos de morbilidad y mortalidad por viruela que realizó Daniel Bernoulli en 1766 para demostrar la eficacia de la vacunación. Uno de los primeros artículos que utilizó el estimador de Kaplan-Meier para estimar los costos censurados fue el de Quesenberry et al. (1989), sin embargo, Lin et al. consideraron que este enfoque no era válido a menos que todos los pacientes acumularan costos con una función de tasa determinista común a lo largo del tiempo, por lo que propusieron una técnica de estimación alternativa conocida como el estimador de Lin.
Pruebas de vida operativas

Las pruebas de confiabilidad a menudo consisten en realizar una prueba en un elemento (en condiciones específicas) para determinar el tiempo que tarda en producirse una falla.
- A veces se planea y espera un fallo, pero no ocurre: error del operador, mal funcionamiento del equipo, anomalía de prueba, etc. El resultado de la prueba no fue el tiempo a la falla deseado, pero puede ser (y debe ser) utilizado como un tiempo a la determinación. El uso de datos censurados es involuntario pero necesario.
- A veces los ingenieros planean un programa de prueba para que, después de un determinado límite de tiempo o número de fallos, todas las otras pruebas sean terminadas. Estos tiempos suspendidos se tratan como datos de origen derecho. El uso de datos censurados es intencional.
Un análisis de los datos de las pruebas replicadas incluye tanto los tiempos de falla de los elementos que fallaron como el tiempo de finalización de la prueba de los que no fallaron.
Regresión censurada
Un modelo anterior de regresión censurada, el modelo Tobit, fue propuesto por James Tobin en 1958.
La probabilidad
La probabilidad es la probabilidad o densidad de probabilidad de lo observado, vista como una función de parámetros en un modelo supuesto. Para incorporar puntos de datos censurados en la probabilidad, los puntos de datos censurados se representan por la probabilidad de los puntos de datos censurados como una función de los parámetros del modelo dado un modelo, es decir, una función de CDF(s) en lugar de la densidad o masa de probabilidad.
El caso más general de censura es la censura de intervalos: , donde es el CDF de la distribución de probabilidad, y los dos casos especiales son:
- la censura izquierda:
- censurando:
Para las distribuciones de probabilidad continua:
Ejemplo
Supongamos que estamos interesados en tiempos de supervivencia, , pero no observamos para todos . En cambio, observamos
- Con y si se observa realmente, y
- Con y si todo lo que sabemos es que es más largo que .
Cuando se llama tiempo de censura.
Si los tiempos de censura son todos constantes conocidas, entonces la probabilidad es
Donde = función de densidad de probabilidad evaluada ,
y = la probabilidad de que es mayor que , llamado el función de supervivencia.
Esto se puede simplificar definiendo la función de riesgo, la fuerza instantánea de mortalidad, como
así que
- .
Entonces
- .
Para la distribución exponencial, esto se vuelve aún más simple, porque la tasa de peligro, , es constante y . Entonces:
- ,
Donde .
De esto fácilmente calculamos , la estimación de probabilidad máxima (MLE) de , como sigue:
- .
Entonces
- .
Ponemos esto a 0 y resolver para para conseguir:
- .
De manera equivalente, el tiempo medio hasta el fallo es:
- .
Esto difiere del MLE estándar para la distribución exponencial en que las observaciones censuradas se consideran solo en el numerador.
Véase también
- Análisis de datos
- Límite de detección
- Imputación (estadística)
- Probabilidad inversa ponderación
- Bias de muestreo
- Saturación aritmética
- Análisis de la supervivencia
- Winsorising
Referencias
- ^ Helsel, D. (2010). "Much Ado About Next to Nothing: Incorporating Nondetects in Science". Annals of Occupational Hygiene. 54 3): 257–262. doi:10.1093/annhyg/mep092. PMID 20032004.
- ^ Bernoulli, D. (1766). "Essai d'une nouvelle analysis de la mortalité causée par la petite vérole". Mem. Math. Phy. Acad. Roy. Sci. Paris, reimpreso en Bradley (1971) 21 y Blower (2004)
- ^ Quesenberry, C. P. Jr.; et al. (1989). "Un análisis de supervivencia de la hospitalización entre pacientes con síndrome de inmunodeficiencia adquirida". American Journal of Public Health. 79 (12): 1643 –1647. doi:10.2105/AJPH.79.12.1643. PMC 1349769. PMID 2817192.
- ^ Lin, D. Y.; et al. (1997). " Estimación de los costos médicos de los datos de seguimiento incompletos". Biometrics. 53 2): 419 –434. doi:10.2307/2533947. JSTOR 2533947. PMID 9192444.
- ^ Wijeysundera, H. C.; et al. (2012). "Técnicas para estimar los costos de atención de salud con datos censurados: una visión general del investigador de servicios de salud". ClinicoEconomics and Outcomes Research. 4: 145–155. doi:10.2147/CEOR.S31552. PMC 3377439. PMID 22719214.
- ^ Tobin, James (1958). "Estimación de relaciones para variables dependientes limitadas" (PDF). Econometrica. 26 1): 24 –36. doi:10.2307/1907382. JSTOR 1907382.
- ^ Lu Tian, construcción de probabilidad, referencia para las distribuciones de supervivencia paramétrica (PDF), Wikidata Q98961801.
Más lectura
- Blower, S. (2004), D, Bernoulli's"Un intento de un nuevo análisis de la mortalidad causada por la viruela y de las ventajas de la inoculación para prevenirla" (PDF). Archivado desde el original (PDF) on 2017-08-08. Retrieved 2019-06-25. (146 KiB)" Opiniones de Virología Médica, 14: 275-288
- Bradley, L. (1971). Inoculación de viruelas: una controversia matemática del siglo XVIII. Nottingham. ISBN 0-902031-23-6.
{{cite book}}
: CS1 maint: localización desaparecido editor (link) - Mann, N. R.; et al. (1975). Métodos para el análisis estadístico de datos sobre fiabilidad y vida. Wiley. ISBN 047156737X.
- Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011)",No-parametric Tests for Censored Data", Londres, ISTE/WILEY,ISBN 9781848212893.
Enlaces externos
- "Manual de estadísticas de actualización", NIST/SEMATEK, [1]