Muestreo de encuesta
En estadística, el muestreo de encuestas describe el proceso de seleccionar una muestra de elementos de una población objetivo para realizar una encuesta. El término "encuesta" puede referirse a muchos tipos o técnicas diferentes de observación. En el muestreo de encuestas, la mayoría de las veces involucra un cuestionario utilizado para medir las características y/o actitudes de las personas. Las diferentes formas de contactar a los miembros de una muestra una vez que han sido seleccionados es el tema de la recopilación de datos de la encuesta. El propósito del muestreo es reducir el costo y/o la cantidad de trabajo que se necesitaría para encuestar a toda la población objetivo. Una encuesta que mide a toda la población objetivo se llama censo. Una muestra se refiere a un grupo o sección de una población de la que se va a obtener información
Las muestras de encuestas se pueden dividir en general en dos tipos: muestras probabilísticas y supermuestras. Las muestras basadas en probabilidades implementan un plan de muestreo con probabilidades específicas (quizás probabilidades adaptadas especificadas por un procedimiento adaptativo). El muestreo basado en la probabilidad permite la inferencia basada en el diseño sobre la población objetivo. Las inferencias se basan en una distribución de probabilidad objetiva conocida que se especificó en el protocolo del estudio. Las inferencias de las encuestas basadas en la probabilidad aún pueden sufrir muchos tipos de sesgos.
Las encuestas que no se basan en muestreo probabilístico tienen mayor dificultad para medir su sesgo o error de muestreo. Las encuestas basadas en muestras no probabilísticas a menudo no representan a las personas de la población objetivo.
En la investigación de encuestas académicas y gubernamentales, el muestreo probabilístico es un procedimiento estándar. En los Estados Unidos, la "Lista de estándares para encuestas estadísticas" de la Oficina de Administración y Presupuesto establece que las encuestas financiadas con fondos federales deben realizarse:
seleccionar muestras utilizando métodos estadísticos generalmente aceptados (p. ej., métodos probabilísticos que pueden proporcionar estimaciones del error de muestreo). Cualquier uso de métodos de muestreo no probabilísticos (p. ej., corte o muestras basadas en modelos) debe justificarse estadísticamente y poder medir el error de estimación.
El muestreo aleatorio y la inferencia basada en el diseño se complementan con otros métodos estadísticos, como el muestreo asistido por modelos y el muestreo basado en modelos.
Por ejemplo, muchas encuestas tienen cantidades sustanciales de falta de respuesta. Aunque las unidades se eligen inicialmente con probabilidades conocidas, los mecanismos de falta de respuesta son desconocidos. Para encuestas con falta de respuesta sustancial, los estadísticos han propuesto modelos estadísticos con los que se analizan los conjuntos de datos.
Los temas relacionados con el muestreo de encuestas se analizan en varias fuentes, incluidos Salant y Dillman (1994).
Muestreo de probabilidad
En una muestra probabilística (también denominada muestra "científica" o "aleatoria"), cada miembro de la población objetivo tiene una probabilidad conocida y distinta de cero de ser incluido en la muestra. Una encuesta basada en una muestra probabilística puede, en teoría, producir mediciones estadísticas de la población objetivo que son:
- imparcial, el valor esperado de la media muestral es igual a la media poblacional E(ȳ)=μ, y
- tener un error de muestreo medible, que se puede expresar como un intervalo de confianza o margen de error.
Una muestra de encuesta basada en la probabilidad se crea mediante la construcción de una lista de la población objetivo, denominada marco muestral, un proceso aleatorio para seleccionar unidades del marco muestral, denominado procedimiento de selección, y un método para ponerse en contacto con las unidades seleccionadas para permitirles completar la encuesta, denominada método o modo de recopilación de datos. Para algunas poblaciones objetivo, este proceso puede ser fácil; por ejemplo, muestrear a los empleados de una empresa mediante listas de nómina. Sin embargo, en poblaciones grandes y desorganizadas, la simple construcción de un marco de muestra adecuado suele ser una tarea compleja y costosa.
Los métodos comunes para realizar una muestra probabilística de la población de los hogares en los Estados Unidos son el muestreo probabilístico por área, el muestreo telefónico de marcación aleatoria de dígitos y, más recientemente, el muestreo basado en la dirección.
Dentro del muestreo probabilístico, existen técnicas especializadas como el muestreo estratificado y el muestreo por conglomerados que mejoran la precisión o eficiencia del proceso de muestreo sin alterar los principios fundamentales del muestreo probabilístico.
La estratificación es el proceso de dividir a los miembros de la población en subgrupos homogéneos antes del muestreo, con base en información auxiliar sobre cada unidad de muestra. Los estratos deben ser mutuamente excluyentes: cada elemento de la población debe asignarse a un solo estrato. Los estratos también deben ser colectivos exhaustivos: no se puede excluir ningún elemento de la población. Entonces se pueden aplicar dentro de cada estrato métodos como el muestreo aleatorio simple o el muestreo sistemático. La estratificación a menudo mejora la representatividad de la muestra al reducir el error de muestreo.
Sesgo en el muestreo probabilístico
El sesgo en las encuestas es indeseable, pero a menudo inevitable. Los principales tipos de sesgo que pueden ocurrir en el proceso de muestreo son:
- Sesgo por falta de respuesta: cuando las personas u hogares seleccionados en la muestra de la encuesta no pueden o no quieren completar la encuesta, existe la posibilidad de que se produzca un sesgo por esta falta de respuesta. El sesgo de falta de respuesta ocurre cuando el valor observado se desvía del parámetro de la población debido a las diferencias entre los encuestados y los no encuestados.
- Sesgo de respuesta: esto no es lo opuesto al sesgo de no respuesta, sino que se relaciona con una posible tendencia de los encuestados a dar respuestas inexactas o falsas por varias razones.
- Sesgo de selección: el sesgo de selección ocurre cuando algunas unidades tienen una probabilidad diferente de selección que el investigador no tiene en cuenta. Por ejemplo, algunos hogares tienen varios números de teléfono, por lo que es más probable que sean seleccionados en una encuesta telefónica que los hogares que tienen un solo número de teléfono. Este sesgo de selección se corregiría aplicando una ponderación de la encuesta igual a [1/(número de números de teléfono)] a cada hogar.
- Sesgo de autoselección: un tipo de sesgo en el que los individuos se seleccionan voluntariamente en un grupo, lo que potencialmente sesga la respuesta de ese grupo.
- Sesgo de participación: Sesgo que surge debido a las características de quienes optan por participar en una encuesta o sondeo.
- Sesgo de cobertura: el sesgo de cobertura puede ocurrir cuando los miembros de la población no aparecen en el marco de la muestra (subcobertura). El sesgo de cobertura ocurre cuando el valor observado se desvía del parámetro de población debido a las diferencias entre las unidades cubiertas y no cubiertas. Las encuestas telefónicas sufren de una fuente bien conocida de sesgo de cobertura porque no pueden incluir hogares sin teléfono.
Muestreo no probabilístico
Muchas encuestas no se basan en muestras probabilísticas, sino en encontrar una colección adecuada de encuestados para completar la encuesta. Algunos ejemplos comunes de muestreo no probabilístico son:
- Muestras de juicio: un investigador decide qué miembros de la población incluir en la muestra en función de su juicio. El investigador puede proporcionar alguna justificación alternativa para la representatividad de la muestra. La suposición subyacente es que el investigador seleccionará las unidades que son características de la población. Este método puede estar sujeto a los sesgos y la percepción del investigador.
- Muestras de bola de nieve: a menudo se usan cuando la población objetivo es escasa. Los miembros de la población objetivo reclutan a otros miembros de la población para la encuesta.
- Muestras por cuotas: la muestra está diseñada para incluir un número designado de personas con ciertas características específicas. Por ejemplo, 100 bebedores de café. Este tipo de muestreo es común en las encuestas de investigación de mercado no probabilísticas.
- Muestras de conveniencia: La muestra está compuesta por cualquier persona a la que se pueda acceder más fácilmente para completar la encuesta.
En las muestras no probabilísticas, la relación entre la población objetivo y la muestra de la encuesta es inconmensurable y el posible sesgo es incognoscible. Los usuarios sofisticados de muestras de encuestas no probabilísticas tienden a ver la encuesta como una condición experimental, en lugar de una herramienta para medir la población, y examinan los resultados en busca de relaciones internamente consistentes.
Contenido relacionado
Área estadística metropolitana
Regresión lineal bayesiana
Cálculo bayesiano aproximado