Muestreo por conglomerados

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Muestra de racimo. Un grupo de doce personas se divide en pares, y dos pares se seleccionan al azar.

En estadística, el muestreo por conglomerados es un plan de muestreo que se utiliza cuando en una población estadística son evidentes agrupaciones mutuamente homogéneas pero internamente heterogéneas. A menudo se utiliza en la investigación de mercados.

En este plan de muestreo, la población total se divide en estos grupos (conocidos como conglomerados) y se selecciona una muestra aleatoria simple de los grupos. A continuación, se muestrean los elementos de cada grupo. Si se muestrean todos los elementos de cada conglomerado muestreado, esto se conoce como "una etapa" plan de muestreo por conglomerados. Si se selecciona una submuestra aleatoria simple de elementos dentro de cada uno de estos grupos, esto se conoce como una submuestra de "dos etapas" plan de muestreo por conglomerados. Una motivación común para el muestreo por conglomerados es reducir el número total de entrevistas y costos dada la precisión deseada. Para un tamaño de muestra fijo, el error aleatorio esperado es menor cuando la mayor parte de la variación en la población está presente internamente dentro de los grupos, y no entre los grupos.

Elementos del clúster

Lo ideal es que la población dentro de un clúster sea lo más heterogénea posible, pero debe haber homogeneidad entre los clústeres. Cada grupo debe ser una representación a pequeña escala de la población total. Los grupos deben ser mutuamente excluyentes y colectivamente exhaustivos. Luego se utiliza una técnica de muestreo aleatorio en cualquier conglomerado relevante para elegir qué conglomerados incluir en el estudio. En el muestreo por conglomerados de una sola etapa, se muestrean todos los elementos de cada uno de los conglomerados seleccionados. En el muestreo por conglomerados en dos etapas, se aplica una técnica de muestreo aleatorio a los elementos de cada uno de los conglomerados seleccionados.

La principal diferencia entre el muestreo por conglomerados y el muestreo estratificado es que en el muestreo por conglomerados, el conglomerado se trata como la unidad de muestreo, por lo que el muestreo se realiza en una población de conglomerados (al menos en la primera etapa). En el muestreo estratificado, el muestreo se realiza sobre elementos dentro de cada estrato. En el muestreo estratificado, se extrae una muestra aleatoria de cada uno de los estratos, mientras que en el muestreo por conglomerados solo se muestrean los conglomerados seleccionados. Una motivación común para el muestreo por conglomerados es reducir los costos aumentando la eficiencia del muestreo. Esto contrasta con el muestreo estratificado donde la motivación es aumentar la precisión.

También existe el muestreo por conglomerados de etapas múltiples, en el que se toman al menos dos etapas para seleccionar elementos de los conglomerados.

Cuando los grupos son de diferentes tamaños

Sin modificar el parámetro estimado, el muestreo por conglomerados es imparcial cuando los conglomerados tienen aproximadamente el mismo tamaño. En este caso, el parámetro se calcula combinando todos los conglomerados seleccionados. Cuando los racimos son de diferentes tamaños hay varias opciones:

Un método es muestrear conglomerados y luego encuestar todos los elementos en ese conglomerado. Otro método es un método de dos etapas de muestreo de una proporción fija de unidades (ya sea 5% o 50%, u otro número, dependiendo de las consideraciones de costos) dentro de cada uno de los conglomerados seleccionados. Confiar en la muestra extraída de estas opciones producirá un estimador imparcial. Sin embargo, el tamaño de la muestra ya no se fija por adelantado. Esto conduce a una fórmula más complicada para el error estándar del estimador, así como a problemas con la óptica del plan de estudio (ya que el análisis de potencia y las estimaciones de costos a menudo se relacionan con un tamaño de muestra específico).

Una tercera solución posible es utilizar la probabilidad proporcional al tamaño del muestreo. En este plan de muestreo, la probabilidad de seleccionar un conglomerado es proporcional a su tamaño, por lo que un conglomerado grande tiene mayor probabilidad de selección que un conglomerado pequeño. La ventaja aquí es que cuando los conglomerados se seleccionan con probabilidad proporcional al tamaño, se debe realizar el mismo número de entrevistas en cada conglomerado muestreado para que cada unidad muestreada tenga la misma probabilidad de selección.

Aplicaciones del muestreo por conglomerados

Un ejemplo de muestreo por conglomerados es el muestreo por áreas o el muestreo por conglomerados geográficos. Cada clúster es un área geográfica. Debido a que encuestar a una población dispersa geográficamente puede ser costoso, se puede lograr una mayor economía que el simple muestreo aleatorio al agrupar a varios encuestados dentro de un área local en un conglomerado. Por lo general, es necesario aumentar el tamaño total de la muestra para lograr una precisión equivalente en los estimadores, pero los ahorros de costos pueden hacer factible dicho aumento en el tamaño de la muestra.

El muestreo por conglomerados se utiliza para estimar altas tasas de mortalidad en casos como guerras, hambrunas y desastres naturales.

Ventaja

Puede ser más barato que otros planes de muestreo – por ejemplo menos gastos de viaje, y costos de administración.
Feasibility: Este plan de muestreo tiene en cuenta a grandes poblaciones. Dado que estos grupos son tan grandes, desplegar cualquier otro plan de muestreo sería muy costoso.
Economía: Las dos principales preocupaciones de los gastos, es decir, viajar y enumerar, se reducen considerablemente en este método. Por ejemplo: Compilar información de investigación sobre cada hogar en una ciudad sería muy costoso, mientras que recopilar información sobre varios bloques de la ciudad será más económico. Aquí, viajar así como los esfuerzos de inclusión se reducirán considerablemente.
Variabilidad reducida: en el raro caso de una correlación intraclase negativa entre sujetos dentro de un grupo, los estimadores producidos por muestreo de racimo darán estimaciones más precisas que los datos obtenidos de una simple muestra aleatoria (es decir, el efecto de diseño será menor que 1). Este no es un escenario común.

Uso mayoritario: cuando no se dispone del marco muestral de todos los elementos podemos recurrir únicamente al muestreo por conglomerados.

Desventaja

Error de muestreo más alto, que puede ser expresado por el efecto de diseño: la relación entre la varianza de un estimador hecho de las muestras del estudio de racimo y la varianza de un estimador obtenido de una muestra de temas en un estudio igualmente fiable, muestreado aleatoriamente sin incluir. Cuanto mayor es la correlación intraclase entre sujetos dentro de un cluster peor se vuelve el efecto de diseño (es decir, el mayor se obtiene de 1. Indicando un mayor aumento previsto de la diferencia del calculador). En otras palabras, cuanto más hay heterogeneidad entre los racimos y mayor homogeneidad entre los sujetos dentro de un clúster, menos precisos serán nuestros estimadores. Esto se debe a que en tales casos estamos mejor fuera de muestreo tantos racimos como podamos y hacer con una pequeña muestra de temas de cada grupo (es decir, muestreo de dos etapas).
Complejidad. El muestreo de racimo es más sofisticado y requiere más atención sobre cómo planificar y cómo analizar (es decir: tener en cuenta los pesos de los sujetos durante la estimación de parámetros, intervalos de confianza, etc.)

Más información sobre el muestreo por conglomerados

Muestreo por conglomerados en dos etapas

El muestreo por conglomerados en dos etapas, un caso simple de muestreo en varias etapas, se obtiene seleccionando muestras por conglomerados en la primera etapa y luego seleccionando una muestra de elementos de cada conglomerado muestreado. Considere una población de N clústeres en total. En la primera etapa, se seleccionan n conglomerados utilizando el método de muestreo por conglomerados ordinario. En la segunda etapa se suele utilizar el muestreo aleatorio simple. Se usa por separado en cada grupo y el número de elementos seleccionados de diferentes grupos no es necesariamente igual. La cantidad total de conglomerados N, la cantidad de conglomerados seleccionados n y la cantidad de elementos de los conglomerados seleccionados deben ser predeterminados por el diseñador de la encuesta. El muestreo por conglomerados en dos etapas tiene como objetivo minimizar los costos de la encuesta y, al mismo tiempo, controlar la incertidumbre relacionada con las estimaciones de interés. Este método se puede utilizar en ciencias sociales y de la salud. Por ejemplo, los investigadores utilizaron un muestreo por conglomerados en dos etapas para generar una muestra representativa de la población iraquí para realizar encuestas de mortalidad. El muestreo en este método puede ser más rápido y más confiable que otros métodos, razón por la cual este método ahora se usa con frecuencia.

Inferencia cuando el número de clústeres es pequeño

Los métodos de muestreo de racimo pueden llevar a un sesgo significativo al trabajar con un pequeño número de grupos. Por ejemplo, puede ser necesario agrupar en el estado o en la ciudad, unidades que pueden ser pequeñas y fijadas en número. Los métodos microeconométricos para los datos de los paneles suelen utilizar paneles cortos, lo que es análogo a tener pocas observaciones por grupos y muchos grupos. El pequeño problema del cúmulo se puede considerar como un problema del parámetro incidental. Si bien las estimaciones de puntos pueden estimarse razonablemente, si el número de observaciones por grupo es suficientemente elevado, necesitamos el número de grupos temáticos ${displaystyle Grightarrow infty }$ para que los asintoticos empiecen. Si el número de grupos es bajo, la matriz de covariancia estimada puede ser sesgada hacia abajo.

Un pequeño número de conglomerados es un riesgo cuando hay una correlación serial o cuando hay una correlación intraclase como en el contexto de Moulton. Cuando tenemos pocos conglomerados, tendemos a subestimar la correlación serial entre observaciones cuando ocurre un choque aleatorio, o la correlación intraclase en un entorno de Moulton. Varios estudios han resaltado las consecuencias de la correlación serial y resaltado el problema de los grupos pequeños.

En el marco del factor Moulton, una explicación intuitiva del pequeño problema del cluster puede derivarse de la fórmula para el factor Moulton. Asumo de simplicidad que el número de observaciones por grupo se fija en n. A continuación, ${displaystyle V_{c}(beta)}$ representa la matriz de covariancia ajustada para el agrupamiento, ${displaystyle V(beta)}$ representa la matriz de covariancia no ajustada para el agrupamiento, y ρ representa la correlación intraclase:

{displaystyle {frac {fnK}}}}=1+(n-1)}

La proporción del lado izquierdo indica cuánto sobreestima la precisión el escenario no ajustado. Por lo tanto, un número alto significa un fuerte sesgo a la baja de la matriz de covarianza estimada. Un problema de conglomerados pequeños puede interpretarse como una n grande: cuando los datos son fijos y la cantidad de conglomerados es baja, la cantidad de datos dentro de un conglomerado puede ser alta. De ello se deduce que la inferencia, cuando el número de conglomerados es pequeño, no tendrá la cobertura correcta.

Se han propuesto varias soluciones para el problema de los clústeres pequeños. Se puede usar una matriz de varianza robusta de conglomerados con corrección de sesgo, hacer ajustes de distribución T o usar métodos de arranque con refinamientos asintóticos, como el percentil-t o el arranque salvaje, que pueden conducir a una inferencia de muestra finita mejorada. Cameron, Gelbach y Miller (2008) proporcionan microsimulaciones para diferentes métodos y encuentran que el arranque salvaje funciona bien frente a una pequeña cantidad de grupos.

Contenido relacionado

Más resultados...