Amostras agrupadas

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Metodologia de amostragem em estatísticas

Amostragem de cluster. Um grupo de doze pessoas é dividido em pares, e dois pares são então selecionados aleatoriamente.

Em estatística, amostragem por cluster é um plano de amostragem usado quando agrupamentos mutuamente homogêneos, mas internamente heterogêneos, são evidentes em uma população estatística. É frequentemente usado em pesquisas de marketing.

Neste plano de amostragem, a população total é dividida nesses grupos (conhecidos como clusters) e uma amostra aleatória simples dos grupos é selecionada. Os elementos em cada cluster são então amostrados. Se todos os elementos em cada cluster amostrado forem amostrados, isso é referido como uma amostra de "estágio único" plano de amostragem por conglomerados. Se uma subamostra aleatória simples de elementos for selecionada dentro de cada um desses grupos, isso é chamado de "dois estágios" plano de amostragem por conglomerados. Uma motivação comum para a amostragem por conglomerados é reduzir o número total de entrevistas e os custos, dada a precisão desejada. Para um tamanho de amostra fixo, o erro aleatório esperado é menor quando a maior parte da variação na população está presente internamente dentro dos grupos, e não entre os grupos.

Cluster elementar

A população dentro de um cluster deve idealmente ser tão heterogênea quanto possível, mas deve haver homogeneidade entre os clusters. Cada cluster deve ser uma representação em pequena escala da população total. Os clusters devem ser mutuamente exclusivos e coletivamente exaustivos. Uma técnica de amostragem aleatória é então usada em quaisquer clusters relevantes para escolher quais clusters incluir no estudo. Na amostragem por conglomerados de estágio único, todos os elementos de cada um dos conglomerados selecionados são amostrados. Na amostragem por conglomerados em dois estágios, uma técnica de amostragem aleatória é aplicada aos elementos de cada um dos conglomerados selecionados.

A principal diferença entre amostragem por conglomerados e amostragem estratificada é que, na amostragem por conglomerados, o conglomerado é tratado como a unidade de amostragem, de modo que a amostragem é feita em uma população de conglomerados (pelo menos no primeiro estágio). Na amostragem estratificada, a amostragem é feita em elementos dentro de cada estrato. Na amostragem estratificada, uma amostra aleatória é retirada de cada um dos estratos, enquanto na amostragem por conglomerados apenas os conglomerados selecionados são amostrados. Uma motivação comum para a amostragem por conglomerados é reduzir custos aumentando a eficiência da amostragem. Isso contrasta com a amostragem estratificada, onde a motivação é aumentar a precisão.

Há também amostragem por conglomerados em vários estágios, onde pelo menos dois estágios são tomados na seleção de elementos dos conglomerados.

Quando os clusters são de tamanhos diferentes

Sem modificar o parâmetro estimado, a amostragem de conglomerados é imparcial quando os conglomerados têm aproximadamente o mesmo tamanho. Nesse caso, o parâmetro é calculado combinando todos os clusters selecionados. Quando os clusters são de tamanhos diferentes existem várias opções:

Um método é amostrar clusters e, em seguida, pesquisar todos os elementos desse cluster. Outro método é um método de dois estágios de amostragem de uma proporção fixa de unidades (seja 5% ou 50%, ou outro número, dependendo das considerações de custo) de cada um dos grupos selecionados. Contar com a amostra extraída dessas opções produzirá um estimador imparcial. No entanto, o tamanho da amostra não é mais fixo antecipadamente. Isso leva a uma fórmula mais complicada para o erro padrão do estimador, bem como a problemas com a ótica do plano de estudo (uma vez que a análise de poder e as estimativas de custo geralmente se relacionam a um tamanho de amostra específico).

Uma terceira solução possível é usar a probabilidade proporcional à amostragem de tamanho. Nesse plano de amostragem, a probabilidade de seleção de um cluster é proporcional ao seu tamanho, portanto um cluster grande tem maior probabilidade de seleção do que um cluster pequeno. A vantagem aqui é que quando os conglomerados são selecionados com probabilidade proporcional ao tamanho, o mesmo número de entrevistas deve ser realizado em cada conglomerado amostrado para que cada unidade amostrada tenha a mesma probabilidade de seleção.

Aplicações de amostragem por conglomerados

Um exemplo de amostragem por conglomerados é a amostragem por área ou por conglomerado geográfico. Cada cluster é uma área geográfica. Como uma população geograficamente dispersa pode ser cara para pesquisar, uma economia maior do que a amostragem aleatória simples pode ser obtida agrupando vários respondentes dentro de uma área local em um cluster. Geralmente é necessário aumentar o tamanho total da amostra para obter uma precisão equivalente nos estimadores, mas a economia de custos pode tornar viável esse aumento no tamanho da amostra.

A amostragem por cluster é usada para estimar baixas taxas de mortalidade em casos como guerras, fome e desastres naturais.

Vantagem

Pode ser mais barato do que outros planos de amostragem – por exemplo, menos despesas de viagem e custo de administração.
Viabilidade: Este plano de amostragem leva em conta grandes populações. Uma vez que esses grupos são tão pequenos, implantar qualquer outro plano de amostragem seria muito caro.
Economia: As duas grandes preocupações de despesas, ou seja, viagens e listagem, são muito reduzidas neste método. Por exemplo: compilar informações de pesquisa sobre cada casa em uma cidade seria muito caro, enquanto a compilação de informações sobre vários blocos da cidade será mais econômica. Aqui, viajar, bem como os esforços de listagem serão muito reduzidos.
Variabilidade reduzida: no caso raro de uma correlação intraclasse negativa entre indivíduos dentro de um cluster, os estimadores produzidos por amostragem de cluster irão produzir estimativas mais precisas do que os dados obtidos a partir de uma amostra aleatória simples (isto é, o efeito de projeto será maior que 1). Este não é um cenário comum.

Principal utilização: quando não está disponível o quadro de amostragem de todos os elementos podemos recorrer apenas à amostragem por conglomerados.

Desvantagem

Erro de amostragem mais elevado, que pode ser expresso pelo efeito de projeto: a razão entre a variância de um estimador feito a partir das amostras do estudo de cluster e a variância de um estimador obtido a partir de uma amostra de indivíduos em um estudo inclusterado igualmente confiável, aleatoriamente amostrado. Quanto maior a correlação intraclasse é entre sujeitos dentro de um cluster, pior o efeito de projeto se torna (isto é, quanto maior ele recebe de 1. Indicar um aumento esperado maior na variância do estimador). Em outras palavras, quanto mais há heterogeneidade entre clusters e mais homogeneidade entre sujeitos dentro de um cluster, menos preciso nossos estimadores se tornam. Isso ocorre porque nesses casos somos melhores na amostragem como muitos clusters que podemos e fazendo com uma pequena amostra de sujeitos de cada cluster (isto é, amostragem de cluster de dois estágios).
Complexidade. A amostragem de cluster é mais sofisticada e requer mais atenção com como planejar e como analisar (isto é: levar em conta os pesos dos sujeitos durante a estimativa de parâmetros, intervalos de confiança, etc.)

Mais sobre amostragem por cluster

Amostragem de cluster em dois estágios

A amostragem por conglomerados em dois estágios, um caso simples de amostragem em vários estágios, é obtida selecionando amostras de conglomerados no primeiro estágio e, em seguida, selecionando uma amostra de elementos de cada conglomerado amostrado. Considere uma população de N clusters no total. No primeiro estágio, n clusters são selecionados usando o método de amostragem de cluster comum. No segundo estágio, a amostragem aleatória simples é geralmente usada. É usado separadamente em cada cluster e os números de elementos selecionados de diferentes clusters não são necessariamente iguais. O número total de clusters N, o número de clusters selecionados n e o número de elementos dos clusters selecionados precisam ser pré-determinados pelo designer da pesquisa. A amostragem por conglomerados em dois estágios visa minimizar os custos do levantamento e ao mesmo tempo controlar a incerteza relacionada às estimativas de interesse. Este método pode ser usado em saúde e ciências sociais. Por exemplo, os pesquisadores usaram amostragem por conglomerados em dois estágios para gerar uma amostra representativa da população iraquiana para realizar pesquisas de mortalidade. A amostragem neste método pode ser mais rápida e confiável do que outros métodos, razão pela qual este método agora é usado com frequência.

Inferência quando o número de clusters é pequeno

Os métodos de amostragem de cluster podem levar a viés significativos ao trabalhar com um pequeno número de clusters. Por exemplo, pode ser necessário agrupar no estado ou no nível da cidade, unidades que podem ser pequenas e fixadas em número. Os métodos microeconométricos para dados do painel muitas vezes usam painéis curtos, o que é análogo a ter poucas observações por clusters e muitos clusters. O pequeno problema de cluster pode ser visto como um problema de parâmetro incidental. Embora as estimativas de ponto possam ser razoavelmente estimadas, se o número de observações por cluster for suficientemente elevado, precisamos do número de clusters ${displaystyle Grightarrow infty }$ para os assintóticos entrarem. Se o número de clusters é baixo, a matriz de covariância estimada pode ser tendenciosa.

Pequenos números de clusters são um risco quando há correlação serial ou quando há correlação intraclasse como no contexto de Moulton. Ao ter poucos clusters, tendemos a subestimar a correlação serial entre as observações quando ocorre um choque aleatório ou a correlação intraclasse em um ambiente Moulton. Vários estudos destacaram as consequências da correlação serial e destacaram o problema de pequenos clusters.

No quadro do fator Moulton, uma explicação intuitiva do pequeno problema de cluster pode ser derivada da fórmula para o fator Moulton. Assuma pela simplicidade que o número de observações por cluster é fixado em n. Abaixo, ${displaystyle V_{c}(beta)}$ significa a matriz de covariância ajustada para clustering, ${displaystyle V(beta)}$ representa a matriz de covariância não ajustada para aglomeração, e ρ representa a correlação intraclasse:

{displaystyle {frac {V_{c}({hat {beta }})}{V({hat {beta }})}}=1+(n-1)rho }

A proporção no lado esquerdo indica o quanto o cenário não ajustado superestima a precisão. Portanto, um número alto significa um forte viés descendente da matriz de covariância estimada. Um pequeno problema de cluster pode ser interpretado como um grande n: quando os dados são fixos e o número de clusters é baixo, o número de dados dentro de um cluster pode ser alto. Segue-se que a inferência, quando o número de clusters é pequeno, não terá a cobertura correta.

Várias soluções para o problema de clusters pequenos foram propostas. Pode-se usar uma matriz de variância robusta de agrupamento corrigida por viés, fazer ajustes de distribuição T ou usar métodos bootstrap com refinamentos assintóticos, como percentil-t ou bootstrap selvagem, que podem levar a uma melhor inferência de amostra finita. Cameron, Gelbach e Miller (2008) fornecem microssimulações para diferentes métodos e descobrem que o bootstrap selvagem tem um bom desempenho diante de um pequeno número de clusters.

Contenido relacionado

Más resultados...