Puntuación estándar
En estadística, la puntuación estándar es el número de desviaciones estándar por las que el valor de una puntuación bruta (es decir, un valor observado o un punto de datos) está por encima o por debajo del valor medio de lo que está siendo observado o medido. Las puntuaciones brutas por encima de la media tienen puntuaciones estándar positivas, mientras que las que están por debajo de la media tienen puntuaciones estándar negativas.
Se calcula restando la media de la población de un puntaje bruto individual y luego dividiendo la diferencia por la desviación estándar de la población. Este proceso de convertir una puntuación bruta en una puntuación estándar se llama estandarizar o normalizar (sin embargo, "normalizar" puede referirse a muchos tipos de proporciones; consulte normalización para más).
Las puntuaciones estándar suelen denominarse z-puntuaciones; los dos términos pueden usarse indistintamente, como lo están en este artículo. Otros términos equivalentes en uso incluyen valores z, puntajes normales, variables estandarizadas y tracción en física de alta energía.
Calcular una puntuación z requiere conocer la media y la desviación estándar de la población completa a la que pertenece un punto de datos; si uno solo tiene una muestra de observaciones de la población, entonces el cálculo análogo usando la media de la muestra y la desviación estándar de la muestra produce la estadística t.
Cálculo
Si se conocen la media de la población y la desviación estándar de la población, una puntuación bruta x se convierte en una puntuación estándar mediante
- z=x− − μ μ σ σ {displaystyle z={x-mu over sigma }
donde:
- μ es la media de la población,
- σ es la desviación estándar de la población.
El valor absoluto de z representa la distancia entre esa puntuación bruta x y la media de la población en unidades de la desviación estándar. z es negativo cuando la puntuación bruta está por debajo de la media, y positivo cuando está por encima.
Calcular z usando esta fórmula requiere el uso de la media de la población y la desviación estándar de la población, no la media de la muestra o la desviación de la muestra. Sin embargo, conocer la verdadera media y la desviación estándar de una población suele ser una expectativa poco realista, excepto en casos como las pruebas estandarizadas, donde se mide a toda la población.
Cuando se desconocen la media de la población y la desviación estándar de la población, la puntuación estándar se puede estimar utilizando la media de la muestra y la desviación estándar de la muestra como estimaciones de los valores de la población.
En estos casos, la puntuación z viene dada por
- z=x− − x̄ ̄ S{displaystyle z={x-{bar {x} over S}
donde:
- x̄ ̄ {displaystyle {bar {x}} es la media de la muestra,
- S es la desviación estándar de la muestra.
Aunque siempre debe indicarse, a menudo no se hace la distinción entre el uso de la población y las estadísticas de muestra. En cualquier caso, el numerador y el denominador de las ecuaciones tienen las mismas unidades de medida, por lo que las unidades se anulan mediante la división y z queda como una cantidad adimensional.
Aplicaciones
Prueba Z
La puntuación z se usa a menudo en la prueba z de las pruebas estandarizadas: el análogo de la prueba t de Student para una población cuyos parámetros son conocidos, en lugar de estimados. Como es muy inusual conocer a toda la población, la prueba t se usa mucho más.
Intervalos de predicción
La puntuación estándar se puede utilizar en el cálculo de intervalos de predicción. Un intervalo de predicción [L,U], que consiste en un punto final inferior designado L y un punto final superior designado U, es un intervalo tal que una observación futura X mentirá en el intervalo con alta probabilidad γ γ {displaystyle gamma }, es decir.
- <math alttext="{displaystyle P(L<XP()L.X.U)=γ γ ,{displaystyle P(L obtenidos)=gamma}<img alt="P(L<X
Para la puntuación estándar Z de X da:
- <math alttext="{displaystyle Pleft({frac {L-mu }{sigma }}<ZP()L− − μ μ σ σ .Z.U− − μ μ σ σ )=γ γ .{displaystyle Pleft({frac {L-mu}{sigma ♪♪ Vale.<img alt="Pleft({frac {L-mu }{sigma }}<Z
Al determinar el cuantil z tal que
- <math alttext="{displaystyle Pleft(-z<ZP()− − z.Z.z)=γ γ {displaystyle Pleft(-z se hizo realidadZright)=gamma }<img alt="Pleft(-z<Z
sigue:
- L=μ μ − − zσ σ ,U=μ μ +zσ σ {displaystyle L=mu -zsigma U=mu +zsigma
Control de procesos
En aplicaciones de control de procesos, el valor Z proporciona una evaluación del grado en que un proceso está funcionando fuera del objetivo.
Comparación de puntajes medidos en diferentes escalas: ACT y SAT
Cuando los puntajes se miden en diferentes escalas, se pueden convertir a puntajes z para facilitar la comparación. Dietz et al. dé el siguiente ejemplo, comparando los puntajes de los estudiantes en las (antiguas) pruebas SAT y ACT de la escuela secundaria. La tabla muestra la media y la desviación estándar de las puntuaciones totales en el SAT y el ACT. Suponga que el estudiante A obtuvo 1800 en el SAT y el estudiante B obtuvo 24 en el ACT. ¿Qué estudiante se desempeñó mejor en relación con otros examinados?
SAT | ACTO | |
---|---|---|
Significa | 1500 | 21 |
Desviación estándar | 300 | 5 |
El z-score para el estudiante A es z=x− − μ μ σ σ =1800− − 1500300=1{displaystyle z={x-mu over sigma }={1800-1500 over 300}=1}
El z-score para el estudiante B es z=x− − μ μ σ σ =24− − 215=0.6{displaystyle z={x-mu over sigma }={24-21 over 5}=0.6}
Debido a que el estudiante A tiene una puntuación z más alta que el estudiante B, el estudiante A se desempeñó mejor en comparación con otros examinados que el estudiante B.
Porcentaje de observaciones por debajo de una puntuación z
Continuando con el ejemplo de las puntuaciones de ACT y SAT, si se puede asumir que tanto las puntuaciones de ACT como las de SAT tienen una distribución normal (lo cual es aproximadamente correcto), entonces las puntuaciones z se pueden usar para calcular el porcentaje de personas que tomaron el examen. quienes recibieron puntajes más bajos que los estudiantes A y B.
Análisis de clúster y escalado multidimensional
"Para algunas técnicas multivariadas, como el escalado multidimensional y el análisis de conglomerados, el concepto de distancia entre las unidades de los datos suele ser de considerable interés e importancia... Cuando las variables en un conjunto de datos multivariados están en diferentes escalas, tiene más sentido calcular las distancias después de algún tipo de estandarización."
Análisis de componentes principales
En el análisis de componentes principales, "las variables medidas en diferentes escalas o en una escala común con rangos muy diferentes a menudo se estandarizan."
Importancia relativa de las variables en regresión múltiple: Coeficientes de regresión estandarizados
La estandarización de las variables antes del análisis de regresión múltiple a veces se usa como ayuda para la interpretación. (página 95) indique lo siguiente.
"La pendiente de regresión estandarizada es la pendiente en la ecuación de regresión si X e Y están estandarizados... La estandarización de X e Y se realiza restando las respectivas medias de cada conjunto de observaciones y dividiendo por las respectivas desviaciones estándar... En la regresión múltiple, donde se utilizan varias variables X, los coeficientes de regresión estandarizados cuantifican la contribución relativa de cada variable X."
Sin embargo, Kutner et al. (p. 278) dan la siguiente advertencia: "... uno debe ser cauteloso al interpretar cualquier coeficiente de regresión, ya sea estandarizado o no. La razón es que cuando las variables predictoras están correlacionadas entre sí,... los coeficientes de regresión se ven afectados por las otras variables predictoras en el modelo... Las magnitudes de los coeficientes de regresión estandarizados se ven afectadas no solo por la presencia de correlaciones entre las variables predictoras sino también por los espaciamientos de las observaciones en cada una de estas variables. A veces, estos espacios pueden ser bastante arbitrarios. Por lo tanto, normalmente no es prudente interpretar las magnitudes de los coeficientes de regresión estandarizados como reflejo de la importancia comparativa de las variables predictoras."
Estandarización en estadística matemática
En las estadísticas matemáticas, una variable aleatoria X es estandarizadas restando su valor esperado E [X]{displaystyle operatorname {E} [X]} y dividir la diferencia por su desviación estándar σ σ ()X)=Var ()X):{displaystyle sigma (X)={sqrt { {Var} (X)}}:}
- Z=X− − E [X]σ σ ()X){displaystyle Z={X-operatorname {E} [X] over sigma (X)}
Si la variable aleatoria bajo consideración es la media de muestra de una muestra aleatoria X1,...... ,Xn{displaystyle X_{1},dots X_{n} de X:
- X̄ ̄ =1n.. i=1nXi{displaystyle {bar {X}={1over n}sum ¿Qué?
entonces la versión estandarizada es
- Z=X̄ ̄ − − E [X̄ ̄ ]σ σ ()X)/n.{displaystyle Z={frac {bar}-operatorname {E} {fn}} {sigma (X)/{sqrt {n}}}} {fn}} {fn}}} {fn}}} {fn}} {fn}}}} {fn}}} {fn}}} {fn}}}}}}}} {f}}}}}} {
Puntuación T
En la evaluación educativa, la puntuación T es una puntuación estándar desplazada en Z y escalada para tener una media de 50 y una desviación estándar de 10. También se conoce como hensachi en japonés, donde el concepto es mucho más conocido y utilizado en el contexto de las admisiones universitarias.
En las mediciones de densidad ósea, la puntuación T es la puntuación estándar de la medición en comparación con la población de adultos sanos de 30 años y tiene la media habitual de 0 y la desviación estándar de 1.
Contenido relacionado
Índice de perlas
Distribución normal
Transformada de Box-Muller