Muestreo (estadísticas)

Ajustar Compartir Imprimir Citar
Selección de puntos de datos en estadísticas.
Una representación visual del proceso de muestreo

En estadística, control de calidad y metodología de encuestas, el muestreo es la selección de un subconjunto (una muestra estadística) de individuos dentro de una población estadística para estimar las características de toda la población. Los estadísticos intentan recolectar muestras que sean representativas de la población en cuestión. El muestreo tiene costos más bajos y una recopilación de datos más rápida que la medición de toda la población y puede proporcionar información en los casos en que no es factible medir una población completa.

Cada observación mide una o más propiedades (como peso, ubicación, color o masa) de objetos o individuos independientes. En el muestreo de encuestas, se pueden aplicar ponderaciones a los datos para ajustar el diseño de la muestra, particularmente en el muestreo estratificado. Los resultados de la teoría de la probabilidad y la teoría estadística se emplean para guiar la práctica. En la investigación comercial y médica, el muestreo se usa ampliamente para recopilar información sobre una población. El muestreo de aceptación se utiliza para determinar si un lote de producción de material cumple con las especificaciones vigentes.

Definición de población

La práctica estadística exitosa se basa en la definición del problema enfocado. En el muestreo, esto incluye definir la "población" de donde se extrae nuestra muestra. Una población puede definirse como la inclusión de todas las personas o elementos con las características que se desea comprender. Debido a que rara vez hay suficiente tiempo o dinero para recopilar información de todos o todo en una población, el objetivo se convierte en encontrar una muestra representativa (o subconjunto) de esa población.

A veces, lo que define a una población es obvio. Por ejemplo, un fabricante debe decidir si un lote de material de producción tiene la calidad suficiente para entregarlo al cliente o si debe desecharse o reprocesarse debido a la mala calidad. En este caso, el lote es la población.

Aunque la población de interés a menudo consta de objetos físicos, a veces es necesario muestrear a lo largo del tiempo, el espacio o alguna combinación de estas dimensiones. Por ejemplo, una investigación sobre el personal de un supermercado podría examinar la longitud de la línea de pago en varios momentos, o un estudio sobre pingüinos en peligro de extinción podría tener como objetivo comprender el uso que hacen de varios lugares de caza a lo largo del tiempo. Para la dimensión temporal, el enfoque puede estar en períodos u ocasiones discretas.

En otros casos, la 'población' puede ser incluso menos tangible. Por ejemplo, Joseph Jagger estudió el comportamiento de las ruedas de la ruleta en un casino de Montecarlo y lo utilizó para identificar una rueda sesgada. En este caso, la 'población' Jagger quería investigar era el comportamiento general de la rueda (es decir, la distribución de probabilidad de sus resultados en un número infinito de intentos), mientras que su 'muestra' se formó a partir de los resultados observados de esa rueda. Surgen consideraciones similares cuando se toman medidas repetidas de alguna característica física como la conductividad eléctrica del cobre.

Esta situación a menudo surge cuando se busca conocimiento sobre el sistema de causas del cual la población observada es un resultado. En tales casos, la teoría del muestreo puede tratar a la población observada como una muestra de una "superpoblación" más grande. Por ejemplo, un investigador podría estudiar la tasa de éxito de un nuevo programa para 'dejar de fumar'. programa en un grupo de prueba de 100 pacientes, con el fin de predecir los efectos del programa si estuviera disponible en todo el país. Aquí la superpoblación es "todas las personas del país que tienen acceso a este tratamiento" – un grupo que aún no existe ya que el programa aún no está disponible para todos.

La población de la que se extrae la muestra puede no ser la misma que la población de la que se desea obtener información. A menudo hay una superposición grande pero no completa entre estos dos grupos debido a problemas de marco, etc. (ver más abajo). A veces, pueden estar completamente separados; por ejemplo, uno podría estudiar ratas para obtener una mejor comprensión de la salud humana, o uno podría estudiar registros de personas nacidas en 2008 para hacer predicciones sobre personas nacidas en 2009.

El tiempo dedicado a precisar la población muestreada y la población de interés a menudo está bien empleado porque plantea muchos problemas, ambigüedades y preguntas que de otro modo se habrían pasado por alto en esta etapa.

Marco de muestreo

En el caso más sencillo, como el muestreo de un lote de material de producción (muestreo de aceptación por lotes), sería más deseable identificar y medir cada uno de los elementos de la población e incluir cualquiera de ellos en nuestra muestra. Sin embargo, en el caso más general, esto no suele ser posible ni práctico. No hay manera de identificar todas las ratas en el conjunto de todas las ratas. Cuando el voto no es obligatorio, no hay forma de identificar qué personas votarán en una próxima elección (antes de la elección). Estas poblaciones imprecisas no se pueden muestrear de ninguna de las formas siguientes y a las que podríamos aplicar la teoría estadística.

Como remedio, buscamos un marco de muestreo que tenga la propiedad de que podemos identificar cada elemento individual e incluir cualquiera en nuestra muestra. El tipo de marco más sencillo es una lista de elementos de la población (preferiblemente toda la población) con la información de contacto adecuada. Por ejemplo, en una encuesta de opinión, los posibles marcos de muestreo incluyen un registro electoral y una guía telefónica.

Una muestra probabilística es una muestra en la que cada unidad de la población tiene una posibilidad (mayor que cero) de ser seleccionada en la muestra, y esta probabilidad se puede determinar con precisión. La combinación de estos rasgos hace posible producir estimaciones no sesgadas de los totales de la población, al ponderar las unidades muestreadas según su probabilidad de selección.

Ejemplo: Queremos estimar el ingreso total de adultos que viven en una calle determinada. Visitamos cada hogar en esa calle, identificamos a todos los adultos que viven allí, y seleccionamos aleatoriamente a un adulto de cada hogar. (Por ejemplo, podemos asignar a cada persona un número aleatorio, generado a partir de una distribución uniforme entre 0 y 1, y seleccionar a la persona con mayor número en cada hogar). Luego entrevistamos a la persona seleccionada y encontramos sus ingresos.

Las personas que viven solas están seguras de ser seleccionadas, por lo que simplemente agregamos sus ingresos a nuestra estimación del total. Pero una persona que vive en un hogar de dos adultos tiene sólo una oportunidad de selección. Para reflejar esto, cuando lleguemos a tal hogar, contaríamos los ingresos de la persona seleccionada dos veces hacia el total. (La persona que es seleccionado de ese hogar se puede ver libremente como también representando a la persona que no seleccionado.)

En el ejemplo anterior, no todos tienen la misma probabilidad de selección; lo que la convierte en una muestra probabilística es el hecho de que se conoce la probabilidad de cada persona. Cuando todos los elementos de la población tienen la misma probabilidad de selección, esto se conoce como 'igual probabilidad de selección' (EPS) diseño. Estos diseños también se conocen como 'autoponderados' porque todas las unidades muestreadas tienen el mismo peso.

El muestreo probabilístico incluye: muestreo aleatorio simple, muestreo sistemático, muestreo estratificado, muestreo de probabilidad proporcional al tamaño y muestreo por conglomerados o multietápico. Estas diversas formas de muestreo probabilístico tienen dos cosas en común:

  1. Cada elemento tiene una probabilidad conocida de ser muestreado y
  2. implica selección aleatoria en algún momento.

Muestreo no probabilístico

Muestreo no probabilístico es cualquier método de muestreo en el que algunos elementos de la población no tienen posibilidad de selección (a veces se los denomina 'fuera de cobertura&#39).;/'encubierto'), o cuando la probabilidad de selección no se puede determinar con precisión. Implica la selección de elementos basada en suposiciones con respecto a la población de interés, que forma los criterios para la selección. Por lo tanto, debido a que la selección de elementos no es aleatoria, el muestreo no probabilístico no permite la estimación de errores de muestreo. Estas condiciones dan lugar al sesgo de exclusión, poniendo límites a la cantidad de información que una muestra puede proporcionar sobre la población. La información sobre la relación entre la muestra y la población es limitada, lo que dificulta la extrapolación de la muestra a la población.

Ejemplo: Visitamos cada hogar en una calle dada, y entrevistamos a la primera persona para responder a la puerta. En cualquier hogar con más de un ocupante, esta es una muestra de no probabilidad, porque algunas personas tienen más probabilidades de responder a la puerta (por ejemplo, una persona desempleada que pasa la mayor parte de su tiempo en casa es más probable que responda que un compañero de casa empleado que puede estar en el trabajo cuando el entrevistador llama) y no es práctico calcular estas probabilidades.

Los métodos de muestreo no probabilístico incluyen el muestreo por conveniencia, el muestreo por cuotas y el muestreo intencional. Además, los efectos de la falta de respuesta pueden convertir cualquier diseño de probabilidad en un diseño de no probabilidad si las características de la falta de respuesta no se comprenden bien, ya que la falta de respuesta modifica efectivamente la probabilidad de cada elemento de ser muestreado.

Métodos de muestreo

Dentro de cualquiera de los tipos de marcos identificados anteriormente, se puede emplear una variedad de métodos de muestreo individualmente o en combinación. Los factores que comúnmente influyen en la elección entre estos diseños incluyen:

Muestreo aleatorio simple

Una representación visual de seleccionar una muestra aleatoria simple

En una muestra aleatoria simple (SRS) de un tamaño determinado, todos los subconjuntos de un marco de muestreo tienen la misma probabilidad de ser seleccionados. Cada elemento del marco tiene así la misma probabilidad de selección: el marco no se subdivide ni se reparte. Además, cualquier par dado de elementos tiene la misma posibilidad de selección que cualquier otro par (y de manera similar para triples, etc.). Esto minimiza el sesgo y simplifica el análisis de los resultados. En particular, la variación entre los resultados individuales dentro de la muestra es un buen indicador de la variación en la población general, lo que hace que sea relativamente fácil estimar la precisión de los resultados.

El muestreo aleatorio simple puede ser vulnerable a errores de muestreo porque la aleatoriedad de la selección puede dar como resultado una muestra que no refleje la composición de la población. Por ejemplo, una muestra aleatoria simple de diez personas de un país determinado producirá en promedio cinco hombres y cinco mujeres, pero es probable que cualquier ensayo dado represente en exceso a un sexo y subrepresenta al otro. Las técnicas sistemáticas y estratificadas intentan superar este problema "usando información sobre la población" para elegir un más "representativo" muestra.

Además, el muestreo aleatorio simple puede ser engorroso y tedioso cuando se toma muestras de una gran población objetivo. En algunos casos, los investigadores están interesados en preguntas de investigación específicas de subgrupos de la población. Por ejemplo, los investigadores podrían estar interesados en examinar si la capacidad cognitiva como predictor del desempeño laboral es igualmente aplicable en todos los grupos raciales. El muestreo aleatorio simple no puede adaptarse a las necesidades de los investigadores en esta situación, porque no proporciona submuestras de la población y, en su lugar, se pueden utilizar otras estrategias de muestreo, como el muestreo estratificado.

Muestreo sistemático

Representación visual de seleccionar una muestra aleatoria utilizando la técnica de muestreo sistemática

El muestreo sistemático (también conocido como muestreo por intervalos) se basa en organizar la población de estudio de acuerdo con algún esquema de ordenación y luego seleccionar elementos a intervalos regulares a través de esa lista ordenada. El muestreo sistemático implica un inicio aleatorio y luego procede con la selección de cada késimo elemento a partir de ese momento. En este caso, k=(tamaño de la población/tamaño de la muestra). Es importante que el punto de partida no sea automáticamente el primero de la lista, sino que se elija aleatoriamente desde el primero hasta el késimo elemento de la lista. Un ejemplo simple sería seleccionar cada décimo nombre del directorio telefónico (una muestra de 'cada 10', también conocida como 'muestreo con un salto de 10').

Siempre que el punto de partida sea aleatorio, el muestreo sistemático es un tipo de muestreo probabilístico. Es fácil de implementar y la estratificación inducida puede hacerla eficiente, si la variable por la que se ordena la lista está correlacionada con la variable de interés. 'Cada 10' El muestreo es especialmente útil para el muestreo eficiente de las bases de datos.

Por ejemplo, supongamos que deseamos muestrear personas de una calle larga que comienza en un área pobre (casa No. 1) y termina en un distrito caro (casa No. 1000). Una simple selección aleatoria de direcciones de esta calle fácilmente podría terminar con demasiadas del extremo superior y muy pocas del extremo inferior (o viceversa), lo que daría lugar a una muestra poco representativa. Seleccionar (p. ej.) cada décimo número de calle a lo largo de la calle asegura que la muestra se distribuya uniformemente a lo largo de la calle, representando todos estos distritos. (Tenga en cuenta que si siempre comenzamos en la casa n.° 1 y terminamos en la n.° 991, la muestra está ligeramente sesgada hacia el extremo inferior; al seleccionar aleatoriamente el inicio entre la n.° 1 y la n.° 10, se elimina este sesgo).

Sin embargo, el muestreo sistemático es especialmente vulnerable a las periodicidades en la lista. Si la periodicidad está presente y el período es un múltiplo o un factor del intervalo utilizado, es especialmente probable que la muestra sea norepresentativa de la población general, lo que hace que el esquema sea menos preciso que el muestreo aleatorio simple.

Por ejemplo, considere una calle donde las casas impares están todas en el lado norte (caro) de la calle y las casas pares están todas en el lado sur (barato). Bajo el esquema de muestreo dado anteriormente, es imposible obtener una muestra representativa; o las casas muestreadas serán todas del lado impar y caro, o todas serán del lado par y barato, a menos que el investigador tenga conocimiento previo de este sesgo y lo evita mediante el uso de un salto que asegura el salto entre los dos lados (cualquier salto impar).

Otro inconveniente del muestreo sistemático es que, incluso en escenarios en los que es más preciso que SRS, sus propiedades teóricas dificultan cuantificar esa precisión. (En los dos ejemplos de muestreo sistemático que se dan arriba, gran parte del error de muestreo potencial se debe a la variación entre casas vecinas, pero debido a que este método nunca selecciona dos casas vecinas, la muestra no nos dará ninguna información sobre esa variación).

Como se describió anteriormente, el muestreo sistemático es un método EPS, porque todos los elementos tienen la misma probabilidad de selección (en el ejemplo dado, uno en diez). Es no 'muestreo aleatorio simple' porque diferentes subconjuntos del mismo tamaño tienen diferentes probabilidades de selección, p. el conjunto {4,14,24,...,994} tiene una probabilidad de selección de uno en diez, pero el conjunto {4,13,24,34,...} tiene una probabilidad de selección cero.

El muestreo sistemático también se puede adaptar a un enfoque que no sea EPS; para ver un ejemplo, consulte la discusión de los ejemplos de PPS a continuación.

Muestreo estratificado

Representación visual de seleccionar una muestra aleatoria usando la técnica de muestreo estratificada

Cuando la población abarca varias categorías distintas, el marco puede organizarse por estas categorías en "estratos" separados. Luego, cada estrato se muestrea como una subpoblación independiente, de la cual se pueden seleccionar aleatoriamente elementos individuales. La relación entre el tamaño de esta selección aleatoria (o muestra) y el tamaño de la población se denomina fracción de muestreo. Hay varios beneficios potenciales para el muestreo estratificado.

Primero, dividir la población en estratos distintos e independientes puede permitir a los investigadores sacar inferencias sobre subgrupos específicos que pueden perderse en una muestra aleatoria más generalizada.

En segundo lugar, utilizar un método de muestreo estratificado puede conducir a estimaciones estadísticas más eficientes (siempre que los estratos se seleccionen en función de la relevancia para el criterio en cuestión, en lugar de la disponibilidad de las muestras). Incluso si un enfoque de muestreo estratificado no conduce a una mayor eficiencia estadística, tal táctica no resultará en una menor eficiencia que el muestreo aleatorio simple, siempre que cada estrato sea proporcional al tamaño del grupo en la población.

Tercero, a veces sucede que los datos están más fácilmente disponibles para estratos preexistentes individuales dentro de una población que para la población en general; en tales casos, usar un enfoque de muestreo estratificado puede ser más conveniente que agregar datos entre grupos (aunque esto puede estar en contradicción con la importancia mencionada anteriormente de utilizar estratos relevantes para el criterio).

Por último, dado que cada estrato se trata como una población independiente, se pueden aplicar diferentes enfoques de muestreo a diferentes estratos, lo que podría permitir a los investigadores utilizar el enfoque más adecuado (o más rentable) para cada subgrupo identificado dentro de la población.

Sin embargo, existen algunos inconvenientes potenciales en el uso del muestreo estratificado. En primer lugar, la identificación de estratos y la implementación de dicho enfoque pueden aumentar el costo y la complejidad de la selección de la muestra, además de conducir a una mayor complejidad de las estimaciones de población. En segundo lugar, cuando se examinan varios criterios, las variables de estratificación pueden estar relacionadas con algunas, pero no con otras, lo que complica aún más el diseño y reduce potencialmente la utilidad de los estratos. Finalmente, en algunos casos (como diseños con una gran cantidad de estratos, o aquellos con un tamaño de muestra mínimo especificado por grupo), el muestreo estratificado puede requerir potencialmente una muestra más grande que otros métodos (aunque en la mayoría de los casos, el tamaño de muestra requerido no sería mayor de lo que se requeriría para un muestreo aleatorio simple).

Un enfoque de muestreo estratificado es más eficaz cuando se cumplen tres condiciones
  1. Se minimiza la variabilidad dentro de los estratos
  2. Se maximiza la variación entre los estratos
  3. Las variables sobre las que se estratifica la población están fuertemente correlacionadas con la variable dependiente deseada.
Ventajas sobre otros métodos de muestreo
  1. Se centra en subpoblaciones importantes e ignora las irrelevantes.
  2. Permite el uso de diferentes técnicas de muestreo para diferentes subpoblaciones.
  3. Mejora la exactitud/eficiencia de la estimación.
  4. Permite un mayor equilibrio del poder estadístico de las pruebas de diferencias entre estratos al muestreo de números iguales de estratos que varían ampliamente en tamaño.
Desventajas
  1. Requiere selección de variables de estratificación relevantes que pueden ser difíciles.
  2. No es útil cuando no hay subgrupos homogéneos.
  3. Puede ser caro implementar.
Poststratification

La estratificación a veces se introduce después de la fase de muestreo en un proceso llamado "postestratificación". Este enfoque generalmente se implementa debido a la falta de conocimiento previo de una variable estratificadora apropiada o cuando el experimentador carece de la información necesaria para crear una variable estratificadora durante la fase de muestreo. Aunque el método es susceptible a las trampas de los enfoques post hoc, puede brindar varios beneficios en la situación correcta. La implementación generalmente sigue una muestra aleatoria simple. Además de permitir la estratificación en una variable auxiliar, la posestratificación se puede utilizar para implementar la ponderación, lo que puede mejorar la precisión de las estimaciones de una muestra.

Oversampling

El muestreo basado en la elección es una de las estrategias de muestreo estratificado. En el muestreo basado en la elección, los datos se estratifican en el objetivo y se toma una muestra de cada estrato para que la clase objetivo rara esté más representada en la muestra. Luego, el modelo se construye sobre esta muestra sesgada. Los efectos de las variables de entrada en el objetivo a menudo se estiman con mayor precisión con la muestra basada en la elección, incluso cuando se toma un tamaño de muestra general más pequeño, en comparación con una muestra aleatoria. Por lo general, los resultados deben ajustarse para corregir el sobremuestreo.

Muestreo de probabilidad proporcional al tamaño

En algunos casos, el diseñador de muestras tiene acceso a una "variable auxiliar" o "medida de tamaño", que se cree que está correlacionada con la variable de interés, para cada elemento de la población. Estos datos se pueden utilizar para mejorar la precisión en el diseño de la muestra. Una opción es usar la variable auxiliar como base para la estratificación, como se discutió anteriormente.

Otra opción es el muestreo de probabilidad proporcional al tamaño ('PPS'), en el que la probabilidad de selección de cada elemento se establece para que sea proporcional a su medida de tamaño, hasta un máximo de 1. En un simple En el diseño de PPS, estas probabilidades de selección se pueden usar como base para el muestreo de Poisson. Sin embargo, esto tiene el inconveniente de que el tamaño de la muestra es variable, y es posible que diferentes porciones de la población aún estén sobrerrepresentadas o subrepresentadas debido a la variación aleatoria en las selecciones.

La teoría del muestreo sistemático se puede utilizar para crear una probabilidad proporcional al tamaño de la muestra. Esto se hace tratando cada conteo dentro de la variable de tamaño como una sola unidad de muestreo. Luego, las muestras se identifican seleccionando a intervalos regulares entre estos recuentos dentro de la variable de tamaño. Este método a veces se denomina muestreo de unidad monetaria o secuencial PPS en el caso de auditorías o muestreo forense.

Ejemplo: Supongamos que tenemos seis escuelas con poblaciones de 150, 180, 200, 220, 260 y 490 estudiantes respectivamente (total 1500 estudiantes), y queremos utilizar la población estudiantil como base para una muestra de PPS de tamaño tres. Para ello, podríamos asignar los primeros números de escuela 1 a 150, la segunda escuela 151 a 330 (= 150 + 180), la tercera escuela 331 a 530, y así sucesivamente a la última escuela (1011 a 1500). Luego generamos un inicio aleatorio entre 1 y 500 (igual a 1500/3) y contamos a través de las poblaciones escolares por varios de 500. Si nuestro inicio aleatorio fuera de 137, seleccionaríamos las escuelas que han sido asignadas número 137, 637 y 1137, es decir, las escuelas primera, cuarta y sexta.

El enfoque PPS puede mejorar la precisión para un tamaño de muestra dado al concentrar la muestra en elementos grandes que tienen el mayor impacto en las estimaciones de población. El muestreo PPS se usa comúnmente para encuestas de empresas, donde el tamaño de los elementos varía mucho y a menudo hay información auxiliar disponible; por ejemplo, una encuesta que intente medir la cantidad de noches de huéspedes en hoteles podría usar la cantidad de habitaciones de cada hotel. como variable auxiliar. En algunos casos, se puede utilizar una medida más antigua de la variable de interés como variable auxiliar cuando se intenta producir estimaciones más actuales.

Muestreo por conglomerados

Una representación visual de seleccionar una muestra aleatoria usando la técnica de muestreo de racimo

A veces es más rentable seleccionar a los encuestados en grupos ('clústeres'). El muestreo a menudo se agrupa por geografía o por períodos de tiempo. (Casi todas las muestras están, en cierto sentido, 'agrupadas' en el tiempo, aunque esto rara vez se tiene en cuenta en el análisis). luego entreviste a cada hogar dentro de los bloques seleccionados.

La agrupación en clústeres puede reducir los costos administrativos y de viaje. En el ejemplo anterior, un entrevistador puede hacer un solo viaje para visitar varios hogares en un bloque, en lugar de tener que conducir a un bloque diferente para cada hogar.

También significa que no se necesita un marco de muestreo que enumere todos los elementos de la población objetivo. En cambio, los clústeres se pueden elegir desde un marco de nivel de clúster, con un marco de nivel de elemento creado solo para los clústeres seleccionados. En el ejemplo anterior, la muestra solo requiere un mapa de la ciudad a nivel de bloque para las selecciones iniciales y luego un mapa a nivel de hogar de los 100 bloques seleccionados, en lugar de un mapa a nivel de hogar de toda la ciudad.

El muestreo por conglomerados (también conocido como muestreo por conglomerados) generalmente aumenta la variabilidad de las estimaciones de la muestra por encima del muestreo aleatorio simple, dependiendo de cómo los conglomerados difieren entre sí en comparación con la variación dentro del conglomerado. Por esta razón, el muestreo por conglomerados requiere una muestra más grande que SRS para lograr el mismo nivel de precisión, pero los ahorros de costos del agrupamiento aún pueden hacer que esta sea una opción más económica.

El muestreo por conglomerados suele implementarse como un muestreo en varias etapas. Esta es una forma compleja de muestreo por conglomerados en la que dos o más niveles de unidades están incrustados uno en el otro. La primera etapa consiste en construir los conglomerados que se utilizarán para muestrear. En la segunda etapa, se selecciona aleatoriamente una muestra de unidades primarias de cada conglomerado (en lugar de utilizar todas las unidades contenidas en todos los conglomerados seleccionados). En las siguientes etapas, en cada uno de esos conglomerados seleccionados, se seleccionan muestras adicionales de unidades, y así sucesivamente. A continuación, se examinan todas las unidades finales (individuos, por ejemplo) seleccionadas en el último paso de este procedimiento. Esta técnica, por lo tanto, es esencialmente el proceso de tomar submuestras aleatorias de muestras aleatorias precedentes.

El muestreo multietapa puede reducir sustancialmente los costos de muestreo, donde sería necesario construir la lista completa de la población (antes de poder aplicar otros métodos de muestreo). Al eliminar el trabajo que implica describir los conglomerados que no se seleccionan, el muestreo multietápico puede reducir los grandes costos asociados con el muestreo por conglomerados tradicional. Sin embargo, cada muestra puede no ser un representante completo de toda la población.

Muestreo por cuotas

En el muestreo por cuotas, la población se segmenta primero en subgrupos mutuamente excluyentes, al igual que en el muestreo estratificado. Luego se usa el juicio para seleccionar los sujetos o unidades de cada segmento en base a una proporción específica. Por ejemplo, se le puede pedir a un entrevistador que muestree 200 mujeres y 300 hombres entre 45 y 60 años.

Es este segundo paso el que hace que la técnica sea de muestreo no probabilístico. En el muestreo por cuotas, la selección de la muestra no es aleatoria. Por ejemplo, los entrevistadores pueden verse tentados a entrevistar a aquellos que parecen más útiles. El problema es que estas muestras pueden estar sesgadas porque no todos tienen la oportunidad de ser seleccionados. Este elemento aleatorio es su mayor debilidad y cuota versus probabilidad ha sido motivo de controversia durante varios años.

Muestreo minimax

En conjuntos de datos desequilibrados, donde la relación de muestreo no sigue las estadísticas de población, se puede volver a muestrear el conjunto de datos de forma conservadora, lo que se denomina muestreo minimax. El muestreo minimax tiene su origen en la relación minimax de Anderson cuyo valor se demuestra que es 0,5: en una clasificación binaria, los tamaños de muestra de clase deben elegirse por igual. Se puede demostrar que esta relación es una relación minimax solo bajo el supuesto del clasificador LDA con distribuciones gaussianas. La noción de muestreo minimax se desarrolló recientemente para una clase general de reglas de clasificación, denominadas clasificadores inteligentes basados en clases. En este caso, la relación de muestreo de las clases se selecciona de modo que el error del clasificador del peor de los casos sobre todas las estadísticas de población posibles para las probabilidades previas de la clase sea el mejor.

Muestreo accidental

El muestreo accidental (a veces conocido como agarrar, conveniencia o muestreo de oportunidad) es un tipo de muestreo no probabilístico en el que la muestra se extrae de la parte de la población que está más cerca. Es decir, se selecciona una población porque está fácilmente disponible y es conveniente. Puede ser a través de conocer a la persona o incluir a una persona en la muestra cuando uno la conoce o la elige encontrándola a través de medios tecnológicos como internet o por teléfono. El investigador que utiliza dicha muestra no puede científicamente hacer generalizaciones sobre la población total de esta muestra porque no sería lo suficientemente representativa. Por ejemplo, si el entrevistador fuera a realizar una encuesta de este tipo en un centro comercial temprano en la mañana de un día determinado, las personas que podría entrevistar se limitarían a las que se indican allí en ese momento determinado, lo que no representaría las opiniones de los demás. otros miembros de la sociedad en dicha área, si la encuesta se realizara en diferentes momentos del día y varias veces por semana. Este tipo de muestreo es más útil para las pruebas piloto. Varias consideraciones importantes para los investigadores que utilizan muestras de conveniencia incluyen:

  1. ¿Hay controles dentro del diseño o experimento de investigación que puedan servir para disminuir el impacto de una muestra de conveniencia no rara, asegurando así que los resultados sean más representativos de la población?
  2. ¿Hay buenas razones para creer que una muestra de conveniencia en particular respondería o debería comportarse de manera diferente que una muestra aleatoria de la misma población?
  3. ¿La pregunta está siendo preguntada por la investigación que puede responder adecuadamente usando una muestra de conveniencia?

En la investigación de las ciencias sociales, el muestreo de bola de nieve es una técnica similar, donde los sujetos de estudio existentes se utilizan para reclutar más sujetos en la muestra. Algunas variantes del muestreo de bola de nieve, como el muestreo dirigido por el encuestado, permiten el cálculo de las probabilidades de selección y son métodos de muestreo probabilístico bajo ciertas condiciones.

Muestreo voluntario

El método de muestreo voluntario es un tipo de muestreo no probabilístico. Los voluntarios eligen completar una encuesta.

Los voluntarios pueden ser invitados a través de anuncios en las redes sociales. La población objetivo de los anuncios se puede seleccionar por características como ubicación, edad, sexo, ingresos, ocupación, educación o intereses utilizando herramientas proporcionadas por el medio social. El anuncio puede incluir un mensaje sobre la investigación y un enlace a una encuesta. Después de seguir el enlace y completar la encuesta, el voluntario envía los datos para que se incluyan en la muestra de población. Este método puede llegar a una población global, pero está limitado por el presupuesto de la campaña. También se pueden incluir en la muestra voluntarios ajenos a la población invitada.

Es difícil hacer generalizaciones a partir de esta muestra porque es posible que no represente a la población total. A menudo, los voluntarios tienen un gran interés en el tema principal de la encuesta.

Muestreo de intercepción de línea

Muestreo de intersección de línea es un método de muestreo de elementos en una región mediante el cual se muestrea un elemento si un segmento de línea elegido, llamado "transecto", intersecta el elemento.

Muestreo de paneles

Muestreo de panel es el método de seleccionar primero un grupo de participantes a través de un método de muestreo aleatorio y luego pedirle a ese grupo (potencialmente la misma) información varias veces durante un período de tiempo. Por lo tanto, cada participante es entrevistado en dos o más momentos; cada período de recopilación de datos se denomina "onda". El método fue desarrollado por el sociólogo Paul Lazarsfeld en 1938 como un medio para estudiar las campañas políticas. Este método de muestreo longitudinal permite estimar los cambios en la población, por ejemplo, con respecto a enfermedades crónicas, estrés laboral o gastos semanales en alimentos. El muestreo de panel también se puede utilizar para informar a los investigadores sobre los cambios de salud dentro de la persona debido a la edad o para ayudar a explicar los cambios en las variables dependientes continuas, como la interacción conyugal. Ha habido varios métodos propuestos para analizar datos de panel, incluidos MANOVA, curvas de crecimiento y modelos de ecuaciones estructurales con efectos retardados.

Muestreo de bola de nieve

El muestreo de bola de nieve implica encontrar un pequeño grupo de encuestados iniciales y usarlos para reclutar a más encuestados. Es particularmente útil en los casos en que la población está oculta o es difícil de enumerar.

Muestreo teórico

El muestreo teórico ocurre cuando las muestras se seleccionan sobre la base de los resultados de los datos recopilados hasta el momento con el objetivo de desarrollar una comprensión más profunda del área o desarrollar teorías. Se pueden seleccionar casos extremos o muy específicos para maximizar la probabilidad de que un fenómeno sea realmente observable.

Reemplazo de unidades seleccionadas

Los esquemas de muestreo pueden ser sin reemplazo ('WOR' – ningún elemento puede seleccionarse más de una vez en la misma muestra) o con reemplazo ('WR': un elemento puede aparecer varias veces en una muestra). Por ejemplo, si capturamos peces, los medimos e inmediatamente los devolvemos al agua antes de continuar con la muestra, este es un diseño WR, porque podríamos terminar capturando y midiendo el mismo pez más de una vez. Sin embargo, si no devolvemos el pez al agua o etiquetamos y liberamos cada pez después de capturarlo, esto se convierte en un diseño WOR.

Determinación del tamaño de la muestra

Las fórmulas, las tablas y los gráficos de funciones de potencia son enfoques bien conocidos para determinar el tamaño de la muestra.

Pasos para usar tablas de tamaño de muestra:

  1. Postular el tamaño del efecto de interés, α, y β.
  2. Tabla de tamaño de muestra
    1. Seleccione la tabla correspondiente a la α seleccionada
    2. Localizar la fila correspondiente a la potencia deseada
    3. Localice la columna correspondiente al tamaño estimado del efecto.
    4. La intersección de la columna y la fila es el tamaño mínimo de la muestra requerido.

Muestreo y recopilación de datos

Una buena recopilación de datos implica:

Aplicaciones del muestreo

El muestreo permite la selección de puntos de datos correctos dentro del conjunto de datos más grande para estimar las características de toda la población. Por ejemplo, se producen alrededor de 600 millones de tweets todos los días. No es necesario mirarlos todos para determinar los temas que se tratan durante el día, ni es necesario mirar todos los tweets para determinar el sentimiento sobre cada uno de los temas. Se ha desarrollado una formulación teórica para el muestreo de datos de Twitter.

En la fabricación, diferentes tipos de datos sensoriales, como acústica, vibración, presión, corriente, voltaje y datos del controlador, están disponibles en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario mirar todos los datos, pero una muestra puede ser suficiente.

Errores en encuestas por muestreo

Los resultados de la encuesta suelen estar sujetos a algún error. Los errores totales se pueden clasificar en errores de muestreo y errores no muestrales. El término "error" aquí incluye sesgos sistemáticos así como errores aleatorios.

Errores de muestreo y sesgos

El diseño de la muestra induce errores de muestreo y sesgos. Incluyen:

  1. Sesgo de selección: Cuando las probabilidades de selección verdadera difieren de las que se suponen para calcular los resultados.
  2. Error de muestreo aleatorio: Variación aleatoria de los resultados debido a los elementos de la muestra que se seleccionan al azar.

Error no muestral

Los errores ajenos al muestreo son otros errores que pueden afectar las estimaciones finales de la encuesta, causados por problemas en la recopilación, el procesamiento o el diseño de la muestra de datos. Dichos errores pueden incluir:

  1. Sobrecubrimiento: inclusión de datos desde fuera de la población
  2. Encubierto: el marco de muestreo no incluye elementos en la población.
  3. Error de medición: por ejemplo cuando los encuestados malinterpretan una pregunta, o encuentran difícil responder
  4. Error de procesamiento: errores en la codificación de datos
  5. Sesgo de no respuesta o participación: no obtener datos completos de todos los individuos seleccionados

Después del muestreo, se debe realizar una revisión del proceso exacto seguido en el muestreo, en lugar del previsto, para estudiar cualquier efecto que las divergencias puedan tener en el análisis posterior.

Un problema particular implica falta de respuesta. Existen dos tipos principales de falta de respuesta:

En el muestreo de encuestas, muchas de las personas identificadas como parte de la muestra pueden no estar dispuestas a participar, no tener el tiempo para participar (costo de oportunidad) o es posible que los administradores de la encuesta no hayan podido comunicarse con ellos. En este caso, existe el riesgo de diferencias entre los encuestados y los no encuestados, lo que lleva a estimaciones sesgadas de los parámetros de la población. Esto a menudo se aborda mejorando el diseño de la encuesta, ofreciendo incentivos y realizando estudios de seguimiento que hacen un intento repetido de contactar a los que no responden y caracterizar sus similitudes y diferencias con el resto del marco. Los efectos también se pueden mitigar ponderando los datos (cuando se dispone de puntos de referencia de población) o imputando datos en función de las respuestas a otras preguntas. La falta de respuesta es particularmente un problema en el muestreo por Internet. Las razones de este problema pueden incluir levantamientos mal diseñados, sobrelevantamiento (o fatiga del levantamiento), y el hecho de que los participantes potenciales pueden tener múltiples direcciones de correo electrónico, que ya no usan o no revisan regularmente.

Ponderación de la encuesta

En muchas situaciones, la fracción de la muestra puede variar según el estrato y los datos deberán ponderarse para representar correctamente a la población. Así, por ejemplo, una muestra aleatoria simple de individuos en el Reino Unido podría no incluir algunos en islas escocesas remotas cuya muestra sería excesivamente costosa. Un método más económico sería utilizar una muestra estratificada con estratos urbanos y rurales. La muestra rural podría estar subrepresentada en la muestra, pero ponderada adecuadamente en el análisis para compensar.

De manera más general, los datos deben ponderarse si el diseño de la muestra no brinda a cada individuo la misma oportunidad de ser seleccionado. Por ejemplo, cuando los hogares tienen las mismas probabilidades de selección pero se entrevista a una persona dentro de cada hogar, esto les da a las personas de hogares grandes menos posibilidades de ser entrevistados. Esto puede tenerse en cuenta utilizando los pesos de la encuesta. De manera similar, los hogares con más de una línea telefónica tienen una mayor probabilidad de ser seleccionados en una muestra de marcado aleatorio de dígitos, y las ponderaciones pueden ajustarse para esto.

Los pesos también pueden servir para otros propósitos, como ayudar a corregir la falta de respuesta.

Métodos para producir muestras aleatorias

Historia

El muestreo aleatorio mediante el uso de lotes es una idea antigua, mencionada varias veces en la Biblia. En 1786, Pierre Simon Laplace estimó la población de Francia utilizando una muestra, junto con un estimador de razón. También calculó estimaciones probabilísticas del error. Estos no se expresaron como intervalos de confianza modernos, sino como el tamaño de la muestra que se necesitaría para lograr un límite superior particular en el error de muestreo con una probabilidad de 1000/1001. Sus estimaciones utilizaron Bayes' teorema con una probabilidad previa uniforme y supuso que su muestra era aleatoria. Alexander Ivanovich Chuprov introdujo las encuestas por muestreo en la Rusia imperial en la década de 1870.

En los EE. UU., la predicción del Literary Digest de 1936 de una victoria republicana en las elecciones presidenciales salió muy mal, debido a un grave sesgo [1]. Más de dos millones de personas respondieron al estudio con sus nombres obtenidos a través de listas de suscripción a revistas y directorios telefónicos. No se apreció que estas listas estuvieran muy sesgadas hacia los republicanos y la muestra resultante, aunque muy grande, tenía muchos defectos.

Estándares

ISO