Muestreo de rechazo
En análisis numéricos y estadísticas computacionales, muestreo de rechazo es una técnica básica utilizada para generar observaciones de una distribución. También se llama comúnmente método de aceptación-rechacción o " algoritmo de aceptación-reyecto" y es un tipo de método de simulación exacta. El método funciona para cualquier distribución en con densidad.
El muestreo de rechazo se basa en la observación de que para muestrear una variable aleatoria en una dimensión, se puede realizar un muestreo aleatorio uniforme del gráfico cartesiano bidimensional y mantener las muestras en la región bajo el gráfico de su función de densidad. Tenga en cuenta que esta propiedad se puede extender a funciones de dimensión N.
Descripción
Para visualizar la motivación detrás del muestreo de rechazo, imagine graficar la función de densidad de una variable aleatoria en un tablero rectangular grande y lanzarle dardos. Suponga que los dardos están distribuidos uniformemente por el tablero. Ahora retira todos los dardos que están fuera del área debajo de la curva. Los dardos restantes se distribuirán uniformemente dentro del área bajo la curva y las posiciones x de estos dardos se distribuirán según la densidad de la variable aleatoria. Esto se debe a que hay más espacio para que los dardos caigan donde la curva es más alta y, por lo tanto, la densidad de probabilidad es mayor.
La visualización como se acaba de describir es equivalente a una forma particular de muestreo de rechazo donde la "distribución de la propuesta" es uniforme (por lo tanto su gráfica es un rectángulo). La forma general de muestreo de rechazo supone que el tablero no es necesariamente rectangular sino que tiene forma de acuerdo con la densidad de alguna distribución de propuesta de la que sabemos cómo tomar muestras (por ejemplo, usando muestreo inverso), y que es al menos tan alta en cada punto. punto como la distribución de la que queremos tomar la muestra, de modo que el primero encierre completamente al segundo. (De lo contrario, habría partes del área curva de la que queremos tomar muestras que nunca podrían alcanzarse).
El muestreo de rechazo funciona de la siguiente manera:
- Muestra un punto sobre el eje x de la distribución de la propuesta.
- Dibujar una línea vertical en esta x-posición, hasta el máximo valor y de la función de densidad de probabilidad de la distribución de la propuesta.
- Muestra uniformemente a lo largo de esta línea de 0 al máximo de la función de densidad de probabilidad. Si el valor muestrado es mayor que el valor de la distribución deseada en esta línea vertical, rechaza el valor x y vuelve al paso 1; de lo contrario el valor x es una muestra de la distribución deseada.
Este algoritmo se puede utilizar para tomar muestras del área bajo cualquier curva, independientemente de si la función se integra a 1. De hecho, escalar una función mediante una constante no tiene ningún efecto en las posiciones x muestreadas. Por tanto, el algoritmo se puede utilizar para tomar muestras de una distribución cuya constante de normalización se desconoce, lo cual es común en estadística computacional.
Teoría
El método de muestreo de rechazo genera valores de muestreo de una distribución objetivo con función de densidad de probabilidad arbitraria utilizando una distribución de propuestas con densidad de probabilidad . La idea es que se puede generar un valor de muestra por en lugar del muestreo y aceptar la muestra de con probabilidad , repitiendo los sorteos de hasta que se acepte un valor. aquí es una constante, finita ligada a la relación de probabilidad , satisfacción sobre el apoyo de ; en otras palabras, M debe satisfacer para todos los valores . Tenga en cuenta que esto requiere que el apoyo de debe incluir el apoyo —en otras palabras, siempre .
La validación de este método es el principio del sobre: al simular el par , uno produce una simulación uniforme sobre el subgrafo de . Aceptar sólo pares tales que entonces produce pares distribuido uniformemente sobre el subgrafo y por lo tanto, marginalmente, una simulación de
Esto significa que, con suficientes réplicas, el algoritmo genera una muestra de la distribución deseada . Hay una serie de extensiones a este algoritmo, como el algoritmo de Metropolis.
Este método se relaciona con el campo general de las técnicas de Monte Carlo, incluyendo algoritmos de la cadena Markov Monte Carlo que también utilizan una distribución proxy para lograr la simulación de la distribución objetivo . Forma la base para algoritmos como el algoritmo de Metropolis.
La probabilidad de aceptación incondicional es la proporción de muestras propuestas que se aceptan, que es
Número de muestras requeridas para obtener un valor aceptado así sigue una distribución geométrica con probabilidad , que tiene significado . Intuitivamente, es el número esperado de las iteraciones que se necesitan, como medida de la complejidad computacional del algoritmo.
Reescribe la ecuación anterior,
El muestreo de rechazo se utiliza más a menudo en casos en que la forma de hace que el muestreo sea difícil. Una única iteración del algoritmo de rechazo requiere muestreo de la distribución de la propuesta, a partir de una distribución uniforme, y evaluación de la expresión. Por lo tanto, el muestreo de rechazo es más eficiente que cualquier otro método cada vez que el coste de estas operaciones —que es el costo esperado de obtener una muestra con muestreo de rechazo— es menor que el costo de obtener una muestra usando el otro método.
Algoritmo
El algoritmo, que fue utilizado por John von Neumann y se remonta a Buffon y su aguja, obtiene una muestra de la distribución con densidad utilizando muestras de distribución con densidad como sigue:
- Obtenga una muestra de distribución y una muestra desde (la distribución uniforme en el intervalo de unidad).
- Compruebe si .
- Si esto sostiene, acepta como muestra extraída ;
- si no, rechazar el valor y volver al escalón.
El algoritmo tomará un promedio de iteraciones para obtener una muestra.
Ventajas sobre el muestreo utilizando métodos ingenuos
El muestreo de rechazo puede ser mucho más eficiente en comparación con los métodos ingenuos en algunas situaciones. Por ejemplo, dado un problema como muestreo condicionalmente dado el conjunto , es decir, , a veces se puede simular fácilmente, utilizando los métodos ingenuos (por ejemplo, mediante muestreo de transformación inversa):
- Muestra independientemente, y aceptar a los que satisfacen
- Producto: (véase también truncación (estadística))
El problema es que este muestreo puede ser difícil e ineficiente, si . El número previsto de iteraciones sería , que podría estar cerca del infinito. Además, incluso cuando se aplica el método de muestreo de rechazo, siempre es difícil optimizar el límite por la relación de probabilidad. Más a menudo que no, es grande y la tasa de rechazo es alta, el algoritmo puede ser muy ineficiente. La Familia Exponencial Natural (si existe), también conocida como inclinación exponencial, proporciona una clase de distribuciones de propuestas que pueden reducir la complejidad de la computación, el valor de y acelerar las computaciones (ver ejemplos: trabajar con Familias Exponenciales Naturales).
Muestreo de rechazo mediante inclinación exponencial
Dada una variable aleatoria , es la distribución de objetivos. Asumo para la simplicidad, la función de densidad se puede escribir explícitamente como . Elija la propuesta como
Donde y . Claramente, , es de una familia exponencial natural. Además, la relación de probabilidad es
Note que implica que de hecho es una función de generación acumulada, es decir,
- .
Es fácil derivar la función de generación de acumuladores de la propuesta y, por lo tanto, los cumulantes de la propuesta.
Como ejemplo simple, supongamos bajo , , con . El objetivo es probar , donde . El análisis es el siguiente:
- Elija la forma de la distribución de la propuesta , con función acumulativa como
- ,
- que implica además que es una distribución normal .
- Decidir el pozo elegido para la distribución de la propuesta. En esta configuración, la forma intuitiva de elegir es para establecer
- ,
- eso es Así pues, la distribución de la propuesta es .
- Escribe explícitamente el objetivo, la propuesta y la relación de probabilidad
- Derive el límite para la relación de probabilidad , que es una función decreciente para , por lo tanto
- criterio de muestreo de rechazo: para , si
posee, acepta el valor ; si no, continuar muestreando nuevo y nuevos hasta la aceptación.
Para el ejemplo anterior, como la medición de la eficiencia, el número esperado de las iteraciones el método de muestreo de rechazo exponencial natural de la familia es de orden , eso es , mientras que bajo el método ingenuo, el número esperado de las iteraciones es , que es mucho más ineficiente.
En general, la inclinación exponencial de una clase paramétrica de distribución de propuestas, resuelve convenientemente los problemas de optimización, con sus propiedades útiles que caracterizan directamente la distribución de la propuesta. Para este tipo de problema, simular condicionalmente , entre la clase de distribuciones simples, el truco es utilizar la familia exponencial natural, que ayuda a ganar cierto control sobre la complejidad y a acelerar considerablemente el cálculo. De hecho, hay razones matemáticas profundas para usar la familia exponencial natural.
Inconvenientes
El muestreo de rechazo requiere conocer la distribución objetivo (específicamente, la capacidad de evaluar el PDF objetivo en cualquier punto).
El muestreo de rechazo puede dar lugar a que se tomen muchas muestras no deseadas si la función que se está muestreando está muy concentrada en una región determinada, por ejemplo, una función que tiene un pico en algún lugar. Para muchas distribuciones, este problema se puede resolver utilizando una extensión adaptativa (ver muestreo de rechazo adaptativo), o con un cambio apropiado de variables con el método de la proporción de uniformes. Además, a medida que las dimensiones del problema aumentan, la relación entre el volumen incrustado y las "esquinas" aumenta. del volumen de inclusión tiende a cero, por lo que pueden producirse muchos rechazos antes de que se genere una muestra útil, lo que hace que el algoritmo sea ineficiente y poco práctico. Ver maldición de la dimensionalidad. En dimensiones altas, es necesario utilizar un enfoque diferente, típicamente un método Monte Carlo de cadena de Markov, como el muestreo de Metropolis o el muestreo de Gibbs. (Sin embargo, el muestreo de Gibbs, que descompone un problema de muestreo multidimensional en una serie de muestras de baja dimensión, puede utilizar el muestreo de rechazo como uno de sus pasos).
Muestreo de rechazo adaptativo
Para muchas distribuciones, es difícil encontrar una distribución propuesta que incluya la distribución dada sin desperdiciar mucho espacio. Una extensión del muestreo de rechazo que se puede utilizar para superar esta dificultad y muestrear eficientemente a partir de una amplia variedad de distribuciones (siempre que tengan funciones de densidad log-cóncavas, que de hecho es el caso de la mayoría de las distribuciones comunes, incluso aquellas cuyo < Las funciones i>densidad no son cóncavas en sí mismas) se conoce como muestreo de rechazo adaptativo (ARS).
Hay tres ideas básicas para esta técnica, tal como la introdujo finalmente Gilks en 1992:
- Si ayuda, defina la distribución de su sobre en el espacio de registro (por ejemplo, la probabilidad de registro o la densidad de registro). Es decir, trabajar con en lugar de directamente.
- A menudo, las distribuciones que tienen funciones de densidad algebraicamente desordenada tienen funciones de densidad de troncos razonablemente más simples (es decir, cuando es desordenado, puede ser más fácil trabajar con o, por lo menos, más cerca de linear de la pieza.
- En lugar de una única función uniforme de densidad de sobre, utilice una función de densidad lineal en sentido estricto como su sobre.
- Cada vez que usted tiene que rechazar una muestra, puede utilizar el valor de que usted evaluó, para mejorar la aproximación de la pieza . Esto reduce la posibilidad de que su próximo intento sea rechazado. Asintotically, the probability of needing to reject your sample should converge to cero, and in practice, often very quickly.
- Como se propone, cada vez que elegimos un punto que es rechazado, apretamos el sobre con otro segmento de línea que es tangente a la curva en el punto con el mismo x-coordinado como el punto elegido.
- Un modelo lineal de la distribución de troncos de la propuesta resulta en un conjunto de distribuciones exponenciales en sentido parcial (es decir, segmentos de una o más distribuciones exponenciales, final a final). Las distribuciones exponenciales son bien comportadas y bien comprendidas. El logaritmo de una distribución exponencial es una línea recta, y por lo tanto este método implica esencialmente encerrar el logaritmo de la densidad en una serie de segmentos de línea. Esta es la fuente de la restricción log-concave: si una distribución es log-concave, entonces su logarithm es concave (en forma como un U al revés), lo que significa que un segmento de línea tangente a la curva siempre pasará sobre la curva.
- Si no funciona en el espacio de registro, una función de densidad lineal en sentido parcial también puede ser muestreada a través de distribuciones triangulares
- Podemos aprovechar aún más el requisito de concavidad (log) para evitar potencialmente el costo de evaluar cuando su muestra es aceptado.
- Al igual que podemos construir un borde superior lineal (la función "envelope") usando los valores de que hemos tenido que evaluar en la cadena actual de rechazos, también podemos construir un límite inferior lineal (la función de "squeezing") a partir de estos valores también.
- Antes de evaluar (el potencialmente caro) para ver si su muestra será aceptada, podemos Ya lo sé. si será aceptado comparando con el (idealmente más barato) (o en este caso) función de squeezing que tienen disponible.
- Este escalón es opcional, incluso cuando lo sugiere Gilks. En el mejor de los casos, le ahorra de sólo una evaluación adicional de su densidad de destino (messy/o costosa). Sin embargo, presumiblemente para funciones de densidad particularmente costosas (y asumiendo la rápida convergencia de la tasa de rechazo hacia cero) esto puede hacer una diferencia considerable en el tiempo de ejecución final.
El método consiste esencialmente en determinar sucesivamente una envolvente de segmentos de línea recta que se aproxima cada vez mejor al logaritmo sin dejar de permanecer por encima de la curva, comenzando con un número fijo de segmentos (posiblemente solo una línea tangente). El muestreo a partir de una variable aleatoria exponencial truncada es sencillo. Simplemente tome el registro de una variable aleatoria uniforme (con el intervalo apropiado y el truncamiento correspondiente).
Desafortunadamente, ARS solo se puede aplicar para el muestreo de densidades objetivo logarítmicas cóncavas. Por esta razón, en la literatura se han propuesto varias extensiones de ARS para abordar distribuciones objetivo no logarítmicas cóncavas. Además, se han diseñado diferentes combinaciones de ARS y el método Metropolis-Hastings para obtener un sampler universal que construya una propuesta de densidades autoajustable (es decir, una propuesta construida y adaptada automáticamente al objetivo). Esta clase de métodos a menudo se denomina algoritmos de muestreo de metrópolis de rechazo adaptativo (ARMS). Las técnicas adaptativas resultantes siempre se pueden aplicar, pero en este caso las muestras generadas están correlacionadas (aunque la correlación desaparece rápidamente a cero a medida que crece el número de iteraciones).
Contenido relacionado
Conjunto vacío
Historia de la lógica
Ley de los grandes números