Determinación del tamaño de la muestra

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

Determinación del tamaño de la muestra o estimación es el acto de elegir el número de observaciones o réplicas a incluir en una muestra estadística. El tamaño de la muestra es una característica importante de cualquier estudio empírico en el que el objetivo sea hacer inferencias sobre una población a partir de una muestra. En la práctica, el tamaño de la muestra utilizada en un estudio generalmente se determina en función del costo, el tiempo o la conveniencia de recopilar los datos y la necesidad de que ofrezcan suficiente poder estadístico. En estudios complejos, se pueden asignar diferentes tamaños de muestra, como en encuestas estratificadas o diseños experimentales con múltiples grupos de tratamiento. En un censo, se buscan datos para toda una población, por lo que el tamaño de muestra previsto es igual a la población. En el diseño experimental, donde un estudio puede dividirse en diferentes grupos de tratamiento, puede haber diferentes tamaños de muestra para cada grupo.

Los tamaños de muestra se pueden elegir de varias maneras:

  • usando experiencia – muestras pequeñas, aunque a veces inevitables, pueden resultar en intervalos de confianza amplios y riesgo de errores en pruebas de hipótesis estadísticas.
  • utilizando una varianza de destino para una estimación que se deriva de la muestra eventualmente obtenida, es decir, si se requiere una alta precisión (intervalo de confianza estrecha) esto se traduce en una baja varianza de destino del estimador.
  • el uso de un objetivo de potencia, es decir, el poder de la prueba estadística para ser aplicado una vez que se recoge la muestra.
  • usando un nivel de confianza, es decir, el mayor nivel de confianza requerido, el mayor tamaño de la muestra (debido a un requisito de precisión constante).

Introducción

La determinación del tamaño de la muestra es un aspecto crucial de la metodología de investigación que desempeña un papel importante para garantizar la confiabilidad y validez de los hallazgos del estudio. Para influir en la precisión de las estimaciones, el poder de las pruebas estadísticas y la solidez general de los hallazgos de la investigación, implica elegir cuidadosamente el número de participantes o puntos de datos que se incluirán en un estudio.

Por ejemplo, si estamos realizando una encuesta para determinar el nivel medio de satisfacción de los clientes con respecto a un nuevo producto. Para determinar un tamaño de muestra apropiado, debemos considerar factores como el nivel deseado de confianza, el margen de error y la variabilidad en las respuestas. Podríamos decidir que queremos un nivel de confianza del 95%, lo que significa que tenemos un 95% de confianza en que el verdadero nivel de satisfacción promedio se encuentra dentro del rango calculado. También decidimos un margen de error, de ±3%, que indica el rango aceptable de diferencia entre nuestra estimación de muestra y el parámetro de población real. Además, podemos tener alguna idea de la variabilidad esperada en los niveles de satisfacción con base en datos o suposiciones anteriores.

Importancia

Los tamaños de muestra más grandes generalmente conducen a una mayor precisión al estimar parámetros desconocidos. Por ejemplo, para determinar con precisión la prevalencia de la infección por patógenos en una especie específica de pez, es preferible examinar una muestra de 200 peces en lugar de 100 peces. Varios hechos fundamentales de la estadística matemática describen este fenómeno, incluida la ley de los grandes números y el teorema del límite central.

En algunas situaciones, el aumento de la precisión para tamaños de muestra más grandes es mínimo o incluso inexistente. Esto puede deberse a la presencia de errores sistemáticos o una fuerte dependencia en los datos, o si los datos siguen una distribución de cola pesada, o porque los datos son fuertemente dependientes o sesgados.

Los tamaños de las muestras pueden evaluarse según la calidad de las estimaciones resultantes, de la siguiente manera. Generalmente se determina sobre la base del costo, el tiempo o la conveniencia de la recopilación de datos y la necesidad de suficiente poder estadístico. Por ejemplo, si se estima una proporción, es posible que desee que el intervalo de confianza del 95% tenga menos de 0,06 unidades de ancho. Alternativamente, el tamaño de la muestra puede evaluarse en función del poder de una prueba de hipótesis. Por ejemplo, si comparamos el apoyo a un determinado candidato político entre las mujeres con el apoyo a ese candidato entre los hombres, es posible que deseemos tener un poder del 80% para detectar una diferencia en los niveles de apoyo de 0,04 unidades.

Estimación

Estimación de una proporción

Una situación relativamente simple es la estimación de una proporción. Es un aspecto fundamental del análisis estadístico, particularmente cuando se mide la prevalencia de una característica específica dentro de una población. Por ejemplo, es posible que deseemos estimar la proporción de residentes de una comunidad que tienen al menos 65 años.

El estimador de una proporción es , donde X es el número de 'positivos', por ejemplo, el número de personas fuera del n muestra personas que tienen al menos 65 años de edad). Cuando las observaciones son independientes, este estimador tiene una distribución binomial (escalada) (y es también la media muestra de datos de una distribución de Bernoulli). La diferencia máxima de esta distribución es de 0.25, que ocurre cuando el parámetro verdadero es p = 0.5. En aplicaciones prácticas, donde el verdadero parámetro p se desconoce, la diferencia máxima se emplea a menudo para las evaluaciones del tamaño de la muestra. Si se conoce una estimación razonable para p la cantidad se puede utilizar en lugar de 0,25.

Como tamaño de la muestra n crece suficientemente grande, la distribución de será muy aproximado por una distribución normal. Utilizando esto y el método Wald para la distribución binomial, produce un intervalo de confianza, con Z que representa el estándar Z-score para el nivel de confianza deseado (por ejemplo, 1,96 para un intervalo de confianza del 95%), en la forma:

Para determinar el tamaño adecuado de la muestra n para estimar proporciones, la ecuación a continuación se puede resolver, donde W representa el ancho deseado del intervalo de confianza. La fórmula de tamaño de muestra resultante, se aplica a menudo con una estimación conservadora p (por ejemplo, 0,5):

para n, lo que produce el tamaño de la muestra

tamaños de muestra para proporciones binomiales dadas diferentes niveles de confianza y márgenes de error

en el caso de usar. 5 como la estimación más conservadora de la proporción. (Nota: W/2 = margen de error.)

En la siguiente figura se puede observar cómo cambian los tamaños de muestra para proporciones binomiales dados diferentes niveles de confianza y márgenes de error.


De lo contrario, la fórmula sería que rinde . Por ejemplo, al estimar la proporción de la población estadounidense que apoya a un candidato presidencial con un intervalo de confianza del 95% de 2 puntos porcentuales (0.02), un tamaño de muestra de (1.96)2(0.022) = 9604 se requiere con el margen de error en este caso es 1 punto porcentual. Es razonable utilizar la estimación de 0,5 para p en este caso porque las razas presidenciales son a menudo cercanas a 50/50, y también es prudente utilizar una estimación conservadora. El margen de error en este caso es 1 punto porcentual (la mitad de 0,02).

En la práctica, la fórmula: se utiliza comúnmente para formar un intervalo de confianza del 95% para la verdadera proporción. La ecuación se puede resolver para n, proporcionando un tamaño mínimo de muestra necesario para cumplir el margen deseado de error. Lo anterior es comúnmente simplificado:"Inferencia por regresión". utdallas.edu.■/ref confía n = 4/W2 1/B2 Donde B es el error vinculado a la estimación, es decir, la estimación se suele dar como ± B. Para B = 10% uno requiere n = 100, para B = 5% n = 400, para B = 3% el requisito aproxima a n = 1000, mientras que para B = 1% del tamaño de la muestra n = 10000 es necesario. Estos números se citan a menudo en noticias de encuestas de opinión y otras encuestas de muestras. Sin embargo, los resultados notificados pueden no ser el valor exacto, ya que los números son preferiblemente redondeados. Saber que el valor del n es el número mínimo de puntos de muestra necesarios para adquirir el resultado deseado, el número de encuestados entonces debe estar en o por encima del mínimo.

Estimación de una media

Simplemente hablando, si estamos tratando de estimar el tiempo promedio que se necesita para que la gente se comunique a trabajar en una ciudad. En lugar de encuestar a toda la población, puede tomar una muestra aleatoria de 100 individuos, registrar sus tiempos de conmutación, y luego calcular el tiempo de conmutación promedio (promedio) para esa muestra. Por ejemplo, persona 1 toma 25 minutos, persona 2 toma 30 minutos, persona 100 toma 20 minutos. Agrega todos los tiempos de conmutación y divide por el número de personas en la muestra (100 en este caso). El resultado sería su estimación del tiempo medio de comunicación para toda la población. Este método es práctico cuando no es factible medir a todos en la población, y proporciona una aproximación razonable basada en una muestra representativa.

De una manera precisamente matemática, al estimar la media poblacional utilizando una muestra independiente e idénticamente distribuida (iid) de tamaño n, donde cada valor de datos tiene una varianza σ< sup>2, el error estándar de la media muestral es:

Esta expresión describe cuantitativamente cómo la estimación se vuelve más precisa a medida que aumenta el tamaño de la muestra. Usando el teorema límite central para justificar aproximar la muestra significa con una distribución normal produce un intervalo de confianza de la forma

donde Z es un Z-score estándar para el nivel deseado de confianza (1.96 para un intervalo de confianza del 95%).

Para determinar el tamaño de muestra n requerido para un intervalo de confianza de ancho W, con W/2 como margen de error en cada lado de la media muestral, la ecuación

puede ser resuelto. Esto produce la fórmula de tamaño de muestra, para n:

.

Por ejemplo, si se estima el efecto de un fármaco sobre la presión arterial con un intervalo de confianza del 95% de seis unidades de ancho, y la desviación estándar conocida de la presión arterial en la población es de 15, el tamaño de la muestra requerido sería , que sería redondeado hasta 97, ya que los tamaños de la muestra deben ser enteros y deben cumplir o superar los cálculos mínimo valor. La comprensión de estos cálculos es esencial para los investigadores que diseñan estudios para estimar con precisión los medios de población dentro de un nivel deseado de confianza.

Tamaños de muestra requeridos para pruebas de hipótesis

Uno de los desafíos predominantes que enfrentan los estadísticos gira en torno a la tarea de calcular el tamaño de la muestra necesaria para alcanzar una potencia estadística específica para una prueba, manteniendo al mismo tiempo una tasa de error tipo I predeterminada α, que significa el nivel de significado en la prueba de hipótesis. Provee un cierto poder para una prueba, dada una predeterminada. Como sigue, esto puede ser estimado por tablas predeterminadas para ciertos valores, por la ecuación de recursos de Mead, o, más generalmente, por la función de distribución acumulativa:

Tablas



Poder
Cohen's d
0.20.50,8
0,25 84146
0,50 1933213
0.60 2464016
0 3105020
0.80 3936426
0.90 5268534
0.95 65110542
0.99 92014858

La tabla que se muestra a la derecha se puede utilizar en una prueba t de dos muestras para estimar los tamaños de muestra de un grupo experimental y un grupo de control que son del mismo tamaño, es decir, el número total de individuos en el ensayo. es el doble que el número dado y el nivel de significancia deseado es 0,05. Los parámetros utilizados son:

  • El poder estadístico deseado del ensayo, mostrado en columna a la izquierda.
  • Cohen's d (= tamaño de efecto), que es la diferencia esperada entre los medios de los valores de destino entre el grupo experimental y el grupo de control, dividido por la desviación estándar esperada.

Ecuación de recursos de Mead

La ecuación de recursos de Mead se utiliza a menudo para estimar tamaños de muestras de animales de laboratorio, así como en muchos otros experimentos de laboratorio. Puede que no sea tan preciso como utilizar otros métodos para estimar el tamaño de la muestra, pero da una idea de cuál es el tamaño de muestra apropiado cuando parámetros como las desviaciones estándar esperadas o las diferencias esperadas en los valores entre grupos se desconocen o son muy difíciles de estimar.

Todos los parámetros en la ecuación son de hecho los grados de libertad del número de sus conceptos y, por lo tanto, sus números se restan en 1 antes de insertarlos en la ecuación.

La ecuación es:

donde:

  • N es el número total de individuos o unidades en el estudio (menos 1)
  • B es componente de bloqueo, representando los efectos ambientales permitidos en el diseño (menos 1)
  • T es componente de tratamiento, correspondiente al número de grupos de tratamiento (incluido el grupo de control) que se utilizan, o el número de preguntas que se hacen (menos 1)
  • E es el grado de libertad de la componente de error y debería estar entre 10 y 20.

Por ejemplo, si se planifica un estudio con animales de laboratorio con cuatro grupos de tratamiento (T=3), con ocho animales por grupo, lo que hace un total de 32 animales (N =31), sin ninguna estratificación adicional (B=0), entonces E sería igual a 28, que está por encima del límite de 20, lo que indica que el tamaño de la muestra puede ser un poco demasiado grande, y seis animales por grupo podrían ser más apropiados.

Función de distribución acumulativa

Vamos. Xi, i = 1, 2,... n ser observaciones independientes tomadas de una distribución normal con media desconocida μ y diferencia conocida σ2. Considere dos hipótesis, una hipótesis nula:

y una hipótesis alternativa:

para alguna 'smallest diferencia significativa ' μ* ■ 0. Este es el valor más pequeño para el cual nos importa observar una diferencia. Ahora, para (1) rechazar H0 con una probabilidad de al menos 1 β cuando Ha es cierto (es decir, un poder de 1 − β), y (2) rechazar H0 con probabilidad α cuando H0 es cierto, lo siguiente es necesario: Si zα es el punto porcentual superior de la distribución normal estándar, entonces

y así

Rechazo H0 si nuestro promedio de muestra () es más que '

es una regla de decisión que satisface (2). (Esta es una prueba de una cola). En tal escenario, lograr esto con una probabilidad de al menos 1−β cuando la hipótesis alternativa Ha es verdadera se vuelve imperativo. . Aquí, el promedio de la muestra se origina a partir de una distribución normal con una media de μ*. Así, el requisito se expresa como:

A través de una cuidadosa manipulación, esto se puede mostrar (ver ejemplo de poder estadístico) cuando sucede cuando

Donde es la función de distribución acumulativa normal.

Tamaño de muestra estratificado

Con técnicas de muestreo más complicadas, como el muestreo estratificado, la muestra a menudo se puede dividir en submuestras. Normalmente, si hay H submuestras de este tipo (de H estratos diferentes), cada una de ellas tendrá un tamaño de muestra nh, h = 1, 2,..., H. Estos nh deben ajustarse a la regla de que n1 + n2 +... + nH = n (es decir, que la muestra total El tamaño viene dado por la suma de los tamaños de las submuestras). La selección óptima de estos nh se puede realizar de varias maneras, utilizando (por ejemplo) la asignación óptima de Neyman.

Hay muchas razones para utilizar el muestreo estratificado: disminuir las varianzas de las estimaciones de la muestra, utilizar métodos parcialmente no aleatorios o estudiar los estratos individualmente. Un método útil, en parte no aleatorio, sería tomar muestras de individuos cuando sean fácilmente accesibles y, cuando no, muestrear conglomerados para ahorrar costos de viaje.

En general, para los estratos H, una media muestral ponderada es

con

Los pesos, , frecuentemente, pero no siempre, representan las proporciones de los elementos de población en los estratos, y . Para un tamaño de muestra fijo, que es ,

que se puede hacer un mínimo si la tasa de muestreo dentro de cada estrato se hace proporcional a la desviación estándar dentro de cada estrato: , donde y es una constante .

Una "asignación óptima" se alcanza cuando las tasas de muestreo dentro de los estratos se hacen directamente proporcionales a las desviaciones estándar dentro de los estratos e inversamente proporcional a la raíz cuadrada del costo de muestreo por elemento dentro de los estratos, :

Donde es una constante , o, más generalmente, cuando

Investigación cualitativa

La investigación cualitativa aborda la determinación del tamaño de la muestra con una metodología distintiva que difiere de los métodos cuantitativos. En lugar de depender de fórmulas predeterminadas o cálculos estadísticos, implica un juicio subjetivo e iterativo a lo largo del proceso de investigación. En los estudios cualitativos, los investigadores a menudo adoptan una postura subjetiva y toman determinaciones a medida que se desarrolla el estudio. La determinación del tamaño de la muestra en estudios cualitativos adopta un enfoque diferente. Generalmente es un juicio subjetivo, tomado a medida que avanza la investigación. Un enfoque común es incluir continuamente participantes o materiales adicionales hasta llegar a un punto de "saturación" es alcanzado. La saturación ocurre cuando nuevos participantes o datos dejan de proporcionar nuevos conocimientos, lo que indica que el estudio ha capturado adecuadamente la diversidad de perspectivas o experiencias dentro de la muestra elegida. Se alcanza la saturación. Se ha investigado empíricamente el número necesario para alcanzar la saturación.

A diferencia de la investigación cuantitativa, los estudios cualitativos enfrentan una escasez de orientación confiable con respecto a la estimación del tamaño de la muestra antes de comenzar la investigación. Imagine realizar entrevistas en profundidad con sobrevivientes de cáncer; los investigadores cualitativos pueden utilizar la saturación de datos para determinar el tamaño de muestra adecuado. Si, durante varias entrevistas, no aparecen nuevos temas o ideas nuevas, se ha alcanzado la saturación y es posible que más entrevistas no agreguen mucho a nuestro conocimiento de la experiencia del sobreviviente. Por tanto, en lugar de seguir una fórmula estadística preestablecida, el concepto de alcanzar la saturación sirve como una guía dinámica para determinar el tamaño de la muestra en la investigación cualitativa. Hay escasez de orientación confiable sobre la estimación del tamaño de las muestras antes de comenzar la investigación, con una variedad de sugerencias. En un esfuerzo por introducir cierta estructura en el proceso de determinación del tamaño de la muestra en la investigación cualitativa, se ha propuesto una herramienta análoga a los cálculos de poder cuantitativos. Esta herramienta, basada en la distribución binomial negativa, está especialmente diseñada para análisis temáticos.

Referencias generales

  • Bartlett, J. E. II; Kotrlik, J. W.; Higgins, C. (2001). "Investigación organizadora: Determinación del tamaño de muestra adecuado para la investigación de encuestas" (PDF). Information Technology, Learning, and Performance Journal. 19 (1): 43–50.
  • Kish, L. (1965). Muestra de encuestas. Wiley. ISBN 978-0-471-48900-9.
  • Smith, Scott (8 de abril de 2013). "Determining Sample Size: How to Ensure You Get the Correct Sample Size". Qualtrics. Retrieved 19 de septiembre 2018.
  • Israel, Glenn D. (1992). "Determining Sample Size". University of Florida, PEOD-6. Retrieved 29 de junio 2019.
  • Rens van de Schoot, Milica Miočević (eds.). 2020. Soluciones de tamaño de muestra pequeña (acceso abierto): Guía para investigadores y profesionales aplicados. Routledge.
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save