Análisis factorial

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

El análisis factorial es un método estadístico que se utiliza para describir la variabilidad entre las variables correlacionadas observadas en términos de un número potencialmente menor de variables no observadas llamadas factores. Por ejemplo, es posible que las variaciones en seis variables observadas reflejen principalmente las variaciones en dos variables no observadas (subyacentes). El análisis factorial busca tales variaciones conjuntas en respuesta a variables latentes no observadas. Las variables observadas se modelan como combinaciones lineales de los factores potenciales más los términos de "error", por lo que el análisis factorial se puede considerar como un caso especial de los modelos de errores en las variables.

En pocas palabras, la carga factorial de una variable cuantifica el grado en que la variable está relacionada con un factor dado.

Una razón común detrás de los métodos analíticos factoriales es que la información obtenida sobre las interdependencias entre las variables observadas se puede usar más tarde para reducir el conjunto de variables en un conjunto de datos. El análisis factorial se usa comúnmente en psicometría, psicología de la personalidad, biología, marketing, gestión de productos, investigación de operaciones, finanzas y aprendizaje automático. Puede ser útil tratar con conjuntos de datos en los que hay un gran número de variables observadas que se cree que reflejan un número menor de variables subyacentes/latentes. Es una de las técnicas de interdependencia más utilizadas y se utiliza cuando el conjunto relevante de variables muestra una interdependencia sistemática y el objetivo es descubrir los factores latentes que crean una similitud.

Modelo estadistico

Definición

El modelo intenta explicar un conjunto de $pags$ observaciones en cada uno de $norte$ los individuos con un conjunto de factores comunes () donde hay menos factores por unidad que observaciones por unidad (). Cada individuo tiene sus propios factores comunes, y estos se relacionan con las observaciones a través de la matriz de carga factorial (), para una sola observación, según $k$ $f_{{i,j}}$ $k<pag$ $k$ ${displaystyle Len mathbb {R} ^{pveces k}}$ ${displaystyle x_{i,m}-mu_{i}=l_{i,1}f_{1,m}+dots +l_{i,k}f_{k,m}+varepsilon_{ soy}}$

por lo cual

${displaystyle x_{i,m}}$ es el valor de la $i$ ésima observación del $metro$ ésimo individuo,
$mu _{i}$ es la media de observación para la $i$ observación ésima,
${ estilo de visualización l_ {i, j}}$ es la carga para la $i$ ésima observación del $j$ ésimo factor,
${ Displaystyle f_ {j, m}}$ es el valor del $j$ factor $metro$ th del individuo th, y
${ estilo de visualización varepsilon _ {i, m}}$ es el término de error estocástico no observado $(soy)$ con media cero y varianza finita.

En notación matricial ${displaystyle X-mathrm {M} =LF+varepsilon}$

donde matriz de observación, matriz ${displaystyle Xen mathbb {R} ^{ptimes n}}$ de carga, matriz ${displaystyle Len mathbb {R} ^{pveces k}}$ de factores, matriz ${displaystyle Fen mathbb {R} ^{ktimes n}}$ de términos de error ${displaystyle varepsilon in mathbb {R} ^{ptimes n}}$ y matriz media ${displaystyle mathrm {M} in mathbb {R} ^{ptimes n}}$ donde el $(soy)$ elemento th es simplemente ${ estilo de visualización mathrm {M} _ {i, m} = mu _ {i}}$ .

También impondremos los siguientes supuestos sobre $F$ :

$F$ y $varepsilon$ son independientes.
$mathrm {E} (F)=0$ ; donde ${ estilo de visualización mathrm {E}}$ esta la expectativa
$mathrm {Cov} (F)=I$ donde ${displaystyle mathrm {Cov} }$ es la matriz de covarianza, para asegurarse de que los factores no están correlacionados, y $yo$ es la matriz identidad.

Supongamos ${displaystyle mathrm {Cov} (X-mathrm {M})=Sigma }$ . Después ${displaystyle Sigma =mathrm {Cov} (X-mathrm {M})=mathrm {Cov} (LF+varepsilon),,}$

y por lo tanto, de las condiciones impuestas $F$ arriba, $Sigma =Lmathrm {Cov} (F)L^{T}+mathrm {Cov} (varepsilon),,$

o, ajuste ${displaystyle Psi:=mathrm {Cov} (varepsilon)}$ , $Sigma =LL^{T}+Psi.,$

Tenga en cuenta que para cualquier matriz ortogonal $q$ , si establecemos ${ estilo de visualización L ^ { prime} = LQ}$ y ${displaystyle F^{primo}=Q^{T}F}$ , los criterios para ser factores y cargas factoriales se mantienen. Por lo tanto, un conjunto de factores y cargas factoriales es único solo hasta una transformación ortogonal.

Ejemplo

Supongamos que un psicólogo tiene la hipótesis de que hay dos tipos de inteligencia, "inteligencia verbal" e "inteligencia matemática", ninguna de las cuales se observa directamente. La evidencia para la hipótesis se busca en los puntajes de los exámenes de cada uno de los 10 campos académicos diferentes de 1000 estudiantes. Si cada estudiante se elige al azar de una gran población, entonces los 10 puntajes de cada estudiante son variables aleatorias. La hipótesis del psicólogo puede decir que para cada uno de los 10 campos académicos, la puntuación promediada sobre el grupo de todos los estudiantes que comparten algún par común de valores para las "inteligencias" verbal y matemática es una constante multiplicada por su nivel de inteligencia verbal más otra constante multiplicada por su nivel de inteligencia matemática, es decir, es una combinación lineal de esos dos "factores"."carga factorial" para este tema. Por ejemplo, la hipótesis puede sostener que la aptitud promedio predicha del estudiante en el campo de la astronomía es{10 × la inteligencia verbal del alumno} + {6 × la inteligencia matemática del alumno}.

Los números 10 y 6 son las cargas factoriales asociadas con la astronomía. Otras materias académicas pueden tener cargas factoriales diferentes.

Dos estudiantes que se supone que tienen grados idénticos de inteligencia verbal y matemática pueden tener diferentes aptitudes medidas en astronomía porque las aptitudes individuales difieren de las aptitudes promedio (predichas anteriormente) y debido al propio error de medición. Tales diferencias constituyen lo que se denomina colectivamente el "error", un término estadístico que significa la cantidad en la que un individuo, según lo medido, difiere de lo que es promedio o predicho por sus niveles de inteligencia (ver errores y residuos en estadísticas).

Los datos observables que entran en el análisis factorial serían 10 puntajes de cada uno de los 1000 estudiantes, un total de 10 000 números. Las cargas factoriales y los niveles de los dos tipos de inteligencia de cada estudiante deben inferirse de los datos.

Modelo matemático del mismo ejemplo

A continuación, las matrices se indicarán mediante variables indexadas. Los índices de "sujeto" se indicarán con las letras $a$ , $b$ y $C$ , con valores que van desde $1$ hasta $pags$ que es igual a $10$ en el ejemplo anterior. Los índices de "factores" se indicarán con las letras $pags$ , $q$ y $r$ , con valores que van desde $1$ hasta $k$ que es igual a $2$ en el ejemplo anterior. Los índices de "instancia" o "muestra" se indicarán con las letras $i$ , $j$ y $k$ , con valores que van desde $1$ hasta $norte$ . En el ejemplo anterior, si una muestra de ${ estilo de visualización N = 1000}$ estudiantes participó en los ${ estilo de visualización p = 10}$ exámenes, la $i$ calificación del estudiante para el $a$ examen está dada por $x_{ai}$ . El propósito del análisis factorial es caracterizar las correlaciones entre las variables $x_{a}$ de las que $x_{ai}$ son una instancia particular o un conjunto de observaciones. Para que las variables estén en pie de igualdad, se normalizan en puntuaciones estándar $z$ : $z_{ai}={frac {x_{ai}-mu _{a}}{sigma _{a}}}$

donde la media muestral es: $mu _{a}={tfrac {1}{N}}sum _{i}x_{ai}$

y la varianza muestral viene dada por: ${displaystyle sigma _{a}^{2}={tfrac {1}{N-1}}sum _{i}(x_{ai}-mu _{a})^{2}}$

El modelo de análisis factorial para esta muestra en particular es entonces: ${begin{matriz}z_{1,i}&=&ell _{1,1}F_{1,i}&+&ell _{1,2}F_{2,i}&+& varepsilon _{1,i}\vdots &&vdots &&vdots &&vdots \z_{10,i}&=&ell _{10,1}F_{1,i}&+&ell _ {10,2}F_{2,i}&+&varepsilon_{10,i}end{matriz}}$

o, más sucintamente: $z_{ai}=sum_{p}ell_{ap}F_{pi}+varepsilon_{ai}$

dónde

${ estilo de visualización F_ {1i}}$ es la $i$ "inteligencia verbal" del estudiante,
${ estilo de visualización F_ {2i}}$ es la $i$ "inteligencia matemática" del estudiante,
$ell _{ap}$ son las cargas factoriales para el $a$ sujeto th, para ${ estilo de visualización p = 1,2}$ .

En notación matricial tenemos ${displaystyle Z=LF+varepsilon}$

$F$ Observe que al duplicar la escala en la que se mide la "inteligencia verbal", el primer componente de cada columna, y al mismo tiempo reducir a la mitad las cargas factoriales de la inteligencia verbal, no se produce ninguna diferencia en el modelo. Por lo tanto, no se pierde generalidad al suponer que la desviación estándar de los factores para la inteligencia verbal es $1$ . Lo mismo ocurre con la inteligencia matemática. Además, por razones similares, no se pierde generalidad al suponer que los dos factores no están correlacionados entre sí. En otras palabras: $sum _{i}F_{pi}F_{qi}=delta _{pq}$

donde $delta _{pq}$ está el delta de Kronecker ( ${ estilo de visualización 0}$ cuándo $pneqq$ y $1$ cuándo $p = q$ ). Se supone que los errores son independientes de los factores: $sum _{i}F_{pi}varepsilon _{ai}=0$

Tenga en cuenta que, dado que cualquier rotación de una solución también es una solución, esto dificulta la interpretación de los factores. Ver desventajas a continuación. En este ejemplo particular, si no sabemos de antemano que los dos tipos de inteligencia no están correlacionados, entonces no podemos interpretar los dos factores como los dos tipos diferentes de inteligencia. Incluso si no están correlacionados, no podemos decir qué factor corresponde a la inteligencia verbal y cuál corresponde a la inteligencia matemática sin un argumento externo.

Los valores de las cargas $L$ , los promedios $mu$ y las varianzas de los "errores" $varepsilon$ deben estimarse dados los datos observados $X$ y $F$ (la suposición sobre los niveles de los factores se fija para un determinado $F$ ). El "teorema fundamental" puede derivarse de las condiciones anteriores: ${displaystyle sum_{i}z_{ai}z_{bi}=sum_{j}ell_{aj}ell_{bj}+sum_{i}varepsilon_{ai} varepsilon _{bi}}$

El término de la izquierda es el término $(a,b)$ - de la matriz de correlación (una $pveces p$ matriz derivada como el producto de la ${ estilo de visualización p veces N}$ matriz de observaciones estandarizadas con su traspuesta) de los datos observados, y sus $pags$ elementos diagonales serán $1$ s. El segundo término de la derecha será una matriz diagonal con términos menores que la unidad. El primer término a la derecha es la "matriz de correlación reducida" y será igual a la matriz de correlación excepto por sus valores diagonales que serán menores que la unidad. Estos elementos diagonales de la matriz de correlación reducida se denominan "comunalidad" (que representan la fracción de la varianza en la variable observada que se explica por los factores): ${displaystyle h_{a}^{2}=1-psi_{a}=sum_{j}ell_{aj}ell_{aj}}$

Los datos de la muestra $z_{ai}$ no obedecerán exactamente a la ecuación fundamental proporcionada anteriormente debido a errores de muestreo, insuficiencia del modelo, etc. El objetivo de cualquier análisis del modelo anterior es encontrar los factores $F_{pi}$ y las cargas $ell _{ap}$ que dan un "mejor ajuste" a los datos.. En el análisis factorial, el mejor ajuste se define como el mínimo del error cuadrático medio en los residuos fuera de la diagonal de la matriz de correlación: ${displaystyle varepsilon ^{2}=sum_{aneq b}left[sum_{i}z_{ai}z_{bi}-sum_{j}ell_{aj} ell_{bj}right]^{2}}$

Esto es equivalente a minimizar los componentes fuera de la diagonal de la covarianza del error que, en las ecuaciones del modelo, tienen valores esperados de cero. Esto debe contrastarse con el análisis de componentes principales que busca minimizar el error cuadrático medio de todos los residuos.Antes de la llegada de las computadoras de alta velocidad, se dedicó un esfuerzo considerable a encontrar soluciones aproximadas al problema, particularmente al estimar las comunalidades por otros medios, lo que luego simplifica considerablemente el problema al generar una matriz de correlación reducida conocida. Esto luego se usó para estimar los factores y las cargas. Con la llegada de las computadoras de alta velocidad, el problema de minimización se puede resolver iterativamente con la velocidad adecuada, y las comunalidades se calculan en el proceso, en lugar de ser necesarias de antemano. El algoritmo MinRes es particularmente adecuado para este problema, pero no es el único medio iterativo para encontrar una solución.

Si se permite que los factores de solución estén correlacionados (como en la rotación 'oblimin', por ejemplo), entonces el modelo matemático correspondiente usa coordenadas sesgadas en lugar de coordenadas ortogonales.

Interpretación geométrica

A los parámetros y variables del análisis factorial se les puede dar una interpretación geométrica. Los datos ( $z_{ai}$ ), los factores ( $F_{pi}$ ) y los errores ( $varepsilon _{ai}$ ) pueden verse como vectores en un $norte$ espacio euclidiano bidimensional (espacio muestral), representados como $mathbf {z} _{a}$ , ${ estilo de visualización mathbf {F} _ {j}}$ y ${ símbolo de negrita { varepsilon}}_{a}$ respectivamente. Dado que los datos están estandarizados, los vectores de datos son de longitud unitaria ( ${ estilo de visualización || mathbf {z} _ {a} ||=1}$ ). Los vectores de factores definen un $k$ subespacio lineal bidimensional (es decir, un hiperplano) en este espacio, sobre el cual se proyectan ortogonalmente los vectores de datos. Esto se sigue de la ecuación del modelo ${displaystyle mathbf {z}_{a}=sum_{j}ell_{aj}mathbf {F}_{j}+{boldsymbol {varepsilon}}_{a}}$

y la independencia de los factores y los errores: ${displaystyle mathbf {F} _{j}cdot {boldsymbol {varepsilon}}_{a}=0}$ . En el ejemplo anterior, el hiperplano es solo un plano bidimensional definido por los vectores de dos factores. La proyección de los vectores de datos sobre el hiperplano viene dada por ${displaystyle {sombrero {mathbf {z} }}_{a}=sum_{j}ell_{aj}mathbf {F}_{j}}$

y los errores son vectores desde ese punto proyectado hasta el punto de datos y son perpendiculares al hiperplano. El objetivo del análisis factorial es encontrar un hiperplano que "se ajuste mejor" a los datos en algún sentido, por lo que no importa cómo se elijan los vectores factoriales que definen este hiperplano, siempre que sean independientes y se encuentren en el hiperplano. Somos libres de especificarlos como ortogonales y normales ( ${displaystyle mathbf {F} _{j}cdot mathbf {F} _{q}=delta _{pq}}$ ) sin pérdida de generalidad. Después de encontrar un conjunto adecuado de factores, también se pueden rotar arbitrariamente dentro del hiperplano, de modo que cualquier rotación de los vectores de factores definirá el mismo hiperplano y también será una solución. Como resultado, en el ejemplo anterior, en el que el hiperplano adecuado es bidimensional, si no sabemos de antemano que los dos tipos de inteligencia no están correlacionados, entonces no podemos interpretar los dos factores como los dos tipos diferentes de inteligencia. Incluso si no están correlacionados, no podemos decir qué factor corresponde a la inteligencia verbal y cuál corresponde a la inteligencia matemática, o si los factores son combinaciones lineales de ambos, sin un argumento externo.

Los vectores de datos $mathbf {z} _{a}$ tienen longitud unitaria. Las entradas de la matriz de correlación para los datos están dadas por $r_{ab}=mathbf {z} _{a}cdot mathbf {z} _{b}$ . La matriz de correlación se puede interpretar geométricamente como el coseno del ángulo entre los dos vectores de datos $mathbf {z} _{a}$ y $mathbf {z} _{b}$ . Los elementos diagonales serán claramente $1$ s y los elementos fuera de la diagonal tendrán valores absolutos menores o iguales a la unidad. La "matriz de correlación reducida" se define como ${sombrero {r}}_{ab}={sombrero {mathbf {z} }}_{a}cdot {sombrero {mathbf {z} }}_{b}$ .

El objetivo del análisis factorial es elegir el hiperplano de ajuste de modo que la matriz de correlación reducida reproduzca la matriz de correlación lo más cerca posible, excepto por los elementos diagonales de la matriz de correlación que se sabe que tienen valor unitario. En otras palabras, el objetivo es reproducir con la mayor precisión posible las correlaciones cruzadas en los datos. Específicamente, para el hiperplano de ajuste, el error cuadrático medio en los componentes fuera de la diagonal ${displaystyle varepsilon ^{2}=sum _{aneq b}left(r_{ab}-{hat {r}}_{ab}right)^{2}}$

se va a minimizar, y esto se logra minimizándolo con respecto a un conjunto de vectores de factores ortonormales. Se puede ver que $r_{ab}-{hat {r}}_{ab}={boldsymbol {varepsilon }}_{a}cdot {boldsymbol {varepsilon }}_{b}$

El término de la derecha es solo la covarianza de los errores. En el modelo, se establece que la covarianza del error es una matriz diagonal y, por lo tanto, el problema de minimización anterior producirá un "mejor ajuste" al modelo: producirá una estimación de muestra de la covarianza del error que tiene sus componentes fuera de la diagonal minimizado en el sentido del cuadrado medio. Se puede ver que dado que ${ sombrero {z}}_{a}$ son proyecciones ortogonales de los vectores de datos, su longitud será menor o igual que la longitud del vector de datos proyectado, que es la unidad. El cuadrado de estas longitudes son solo los elementos diagonales de la matriz de correlación reducida. Estos elementos diagonales de la matriz de correlación reducida se conocen como "comunidades": ${displaystyle {h_{a}}^{2}=||{sombrero {mathbf {z} }}_{a}||^{2}=sum_{j}{ell_{aj} }}^{2}}$

Los valores grandes de las comunalidades indicarán que el hiperplano de ajuste está reproduciendo con bastante precisión la matriz de correlación. Los valores medios de los factores también deben restringirse a cero, de lo que se deduce que los valores medios de los errores también serán cero.

Implementación práctica

Interpretación geométrica de los parámetros del análisis factorial para 3 encuestados a la pregunta a

Tipos de análisis factorial

Análisis factorial exploratorio

El análisis factorial exploratorio (AFE) se utiliza para identificar interrelaciones complejas entre elementos y agrupar elementos que forman parte de conceptos unificados. El investigador no hace suposiciones a priori sobre las relaciones entre los factores.

Análisis factorial confirmatorio

El análisis factorial confirmatorio (CFA) es un enfoque más complejo que prueba la hipótesis de que los elementos están asociados con factores específicos. CFA utiliza modelos de ecuaciones estructurales para probar un modelo de medición mediante el cual la carga en los factores permite la evaluación de las relaciones entre las variables observadas y las no observadas. Los enfoques de modelado de ecuaciones estructurales pueden acomodar el error de medición y son menos restrictivos que la estimación de mínimos cuadrados. Los modelos hipotéticos se contrastan con los datos reales y el análisis demostraría las cargas de las variables observadas sobre las variables latentes (factores), así como la correlación entre las variables latentes.

Tipos de extracción de factores

El análisis de componentes principales (PCA) es un método ampliamente utilizado para la extracción de factores, que es la primera fase de EFA. Los pesos de los factores se calculan para extraer la máxima varianza posible, y la factorización sucesiva continúa hasta que no queda más varianza significativa. A continuación, el modelo factorial debe rotarse para el análisis.

El análisis factorial canónico, también llamado factorización canónica de Rao, es un método diferente para calcular el mismo modelo que PCA, que utiliza el método del eje principal. El análisis factorial canónico busca los factores que tienen la correlación canónica más alta con las variables observadas. El análisis factorial canónico no se ve afectado por el cambio de escala arbitrario de los datos.

El análisis factorial común, también llamado análisis factorial principal (PFA) o factorización del eje principal (PAF), busca la menor cantidad de factores que puedan explicar la varianza común (correlación) de un conjunto de variables.

La factorización de imágenes se basa en la matriz de correlación de las variables predichas en lugar de las variables reales, donde cada variable se predice a partir de las demás mediante regresión múltiple.

La factorización alfa se basa en maximizar la confiabilidad de los factores, asumiendo que las variables se muestrean aleatoriamente de un universo de variables. Todos los demás métodos asumen casos para ser muestreados y variables fijas.

El modelo de regresión factorial es un modelo combinatorio de modelo factorial y modelo de regresión; o alternativamente, puede verse como el modelo factorial híbrido, cuyos factores son parcialmente conocidos.

Terminología

Cargas factorialesLa comunalidad es el cuadrado de la carga externa estandarizada de un artículo. De manera análoga al r-cuadrado de Pearson, la carga del factor al cuadrado es el porcentaje de variación en esa variable indicadora explicada por el factor. Para obtener el porcentaje de varianza en todas las variables explicadas por cada factor, sume la suma de las cargas factoriales al cuadrado para ese factor (columna) y divida por el número de variables. (Tenga en cuenta que el número de variables es igual a la suma de sus varianzas, ya que la varianza de una variable estandarizada es 1). Esto es lo mismo que dividir el valor propio del factor por el número de variables.Al interpretar, por una regla general en el análisis factorial confirmatorio, las cargas factoriales deben ser de 0,7 o más altas para confirmar que las variables independientes identificadas a priori están representadas por un factor en particular, sobre la base de que el nivel de 0,7 corresponde a aproximadamente la mitad de las varianza en el indicador siendo explicada por el factor. Sin embargo, el estándar de.7 es alto y es posible que los datos de la vida real no cumplan con este criterio, razón por la cual algunos investigadores, particularmente con fines exploratorios, usarán un nivel más bajo, como.4 para el factor central y.25 para otros factores. En cualquier caso, las cargas factoriales deben interpretarse a la luz de la teoría, no por niveles de corte arbitrarios.En la rotación oblicua, se puede examinar tanto una matriz de patrón como una matriz de estructura. La matriz de estructura es simplemente la matriz de carga factorial como en rotación ortogonal, que representa la varianza en una variable medida explicada por un factor sobre la base de contribuciones únicas y comunes. La matriz patrón, por el contrario, contiene coeficientes que solo representan contribuciones únicas. Cuantos más factores, por regla general, menores serán los coeficientes del patrón, ya que habrá contribuciones más comunes a la varianza explicada. Para la rotación oblicua, el investigador observa tanto la estructura como los coeficientes de patrón cuando atribuye una etiqueta a un factor. Los principios de rotación oblicua se pueden derivar tanto de la entropía cruzada como de su entropía dual.comunalidadLa suma de las cargas factoriales al cuadrado para todos los factores de una determinada variable (fila) es la varianza de esa variable explicada por todos los factores. La comunalidad mide el porcentaje de varianza en una variable dada explicada por todos los factores conjuntamente y puede interpretarse como la confiabilidad del indicador en el contexto de los factores que se postulan.soluciones espuriasSi la comunalidad supera 1,0, existe una solución espuria, que puede reflejar una muestra demasiado pequeña o la elección de extraer demasiados o muy pocos factores.Unicidad de una variableLa variabilidad de una variable menos su comunalidad.Valores propios/raíces característicasLos valores propios miden la cantidad de variación en la muestra total explicada por cada factor. La razón de valores propios es la razón de la importancia explicativa de los factores con respecto a las variables. Si un factor tiene un valor propio bajo, entonces está contribuyendo poco a la explicación de las varianzas en las variables y puede ignorarse como menos importante que los factores con valores propios más altos.Sumas de extracción de cargas al cuadradoLos valores propios iniciales y los valores propios después de la extracción (enumerados por SPSS como "Extraction Sums of Squared Loadings") son los mismos para la extracción PCA, pero para otros métodos de extracción, los valores propios después de la extracción serán más bajos que sus contrapartes iniciales. SPSS también imprime "Sumas de rotación de cargas cuadráticas" e incluso para PCA, estos valores propios diferirán de los valores propios iniciales y de extracción, aunque su total será el mismo.Puntuaciones de factoresPuntuaciones de los componentes (en PCA)Las puntuaciones de cada caso (fila) en cada factor (columna). Para calcular el puntaje factorial para un caso dado para un factor dado, uno toma el puntaje estandarizado del caso en cada variable, lo multiplica por las cargas correspondientes de la variable para el factor dado y suma estos productos. Calcular las puntuaciones de los factores permite buscar valores atípicos de los factores. Además, las puntuaciones de los factores pueden utilizarse como variables en modelos posteriores.

Criterios para determinar el número de factores

Los investigadores desean evitar criterios tan subjetivos o arbitrarios para la retención de factores como "tenía sentido para mí". Se han desarrollado varios métodos objetivos para resolver este problema, lo que permite a los usuarios determinar un rango apropiado de soluciones para investigar. Sin embargo, estos diferentes métodos a menudo no están de acuerdo entre sí en cuanto a la cantidad de factores que deben conservarse. Por ejemplo, el análisis paralelo puede sugerir 5 factores mientras que el MAP de Velicer sugiere 6, por lo que el investigador puede solicitar soluciones de 5 y 6 factores y discutir cada una en términos de su relación con la teoría y los datos externos.

Criterios modernos

Análisis paralelo de Horn (PA): un método de simulación basado en Monte-Carlo que compara los valores propios observados con los obtenidos de variables normales no correlacionadas. Se retiene un factor o componente si el valor propio asociado es mayor que el percentil 95 de la distribución de valores propios derivados de los datos aleatorios. PA se encuentra entre las reglas más comúnmente recomendadas para determinar la cantidad de componentes que se deben retener, pero muchos programas no incluyen esta opción (una excepción notable es R). Sin embargo, Formann proporcionó evidencia tanto teórica como empírica de que su aplicación podría no ser apropiada en muchos casos, ya que su desempeño está influenciado considerablemente por el tamaño de la muestra, la discriminación de ítems y el tipo de coeficiente de correlación.

Prueba MAP de Velicer (1976) según lo descrito por Courtney (2013)Los cálculos se realizan para k menos un paso (k representa el número total de variables en la matriz). A partir de entonces, todas las correlaciones cuadráticas promedio para cada paso se alinean y el número de paso en los análisis que resultó en la correlación parcial cuadrática promedio más baja determina la cantidad de componentes o factores que se deben retener.Con este método, los componentes se mantienen siempre que la varianza en la matriz de correlación represente una varianza sistemática, a diferencia de la varianza residual o de error. Aunque metodológicamente similar al análisis de componentes principales, se ha demostrado que la técnica MAP funciona bastante bien para determinar la cantidad de factores que se deben retener en múltiples estudios de simulación. Este procedimiento está disponible a través de la interfaz de usuario de SPSS, así como el paquete psych para el lenguaje de programación R.

Métodos más antiguos

Criterio de Kaiser: La regla de Kaiser es descartar todos los componentes con valores propios por debajo de 1,0, siendo este el valor propio igual a la información explicada por un solo elemento promedio. El criterio de Kaiser es el predeterminado en SPSS y en la mayoría de los programas estadísticos, pero no se recomienda cuando se usa como el único criterio de corte para estimar el número de factores, ya que tiende a sobreextraer factores. Se ha creado una variación de este método en la que un investigador calcula los intervalos de confianza para cada valor propio y retiene solo los factores que tienen el intervalo de confianza completo mayor que 1,0.

Gráfico de pantalla: la prueba de pantalla de Cattell traza los componentes como el eje X y los valores propios correspondientes como el eje Y. A medida que uno se mueve hacia la derecha, hacia componentes posteriores, los valores propios caen. Cuando la caída cesa y la curva forma un codo hacia un declive menos pronunciado, la prueba de sedimentación de Cattell dice que se dejen caer todos los demás componentes después del que comienza en el codo. Esta regla a veces se critica por ser susceptible de "falsificación" controlada por el investigador. Es decir, como elegir el "codo" puede ser subjetivo porque la curva tiene múltiples codos o es una curva suave, el investigador puede verse tentado a establecer el límite en la cantidad de factores deseados por su agenda de investigación.

Criterio explicado de la varianza: algunos investigadores simplemente usan la regla de mantener suficientes factores para explicar el 90% (a veces el 80%) de la variación. Cuando el objetivo del investigador enfatiza la parsimonia (explicar la varianza con la menor cantidad de factores posible), el criterio podría ser tan bajo como 50%.

Método bayesiano

Un enfoque bayesiano basado en el proceso de buffet indio arroja una distribución de probabilidad sobre el número plausible de factores latentes.

Métodos de rotación

La salida no rotada maximiza la varianza explicada por el primer factor y los subsiguientes, y obliga a los factores a ser ortogonales. Esta compresión de datos tiene el costo de que la mayoría de los elementos se carguen en los primeros factores y, por lo general, de que muchos elementos se carguen sustancialmente en más de un factor. La rotación sirve para hacer que la salida sea más comprensible, al buscar la llamada "Estructura simple": un patrón de cargas en el que cada elemento se carga fuertemente en solo uno de los factores y mucho más débilmente en los otros factores. Las rotaciones pueden ser ortogonales u oblicuas (permitiendo que los factores se correlacionen).

La rotación Varimax es una rotación ortogonal de los ejes de los factores para maximizar la varianza de las cargas al cuadrado de un factor (columna) en todas las variables (filas) en una matriz de factores, que tiene el efecto de diferenciar las variables originales por factor extraído. Cada factor tenderá a tener cargas grandes o pequeñas de cualquier variable en particular. Una solución varimax produce resultados que facilitan al máximo la identificación de cada variable con un solo factor. Esta es la opción de rotación más común. Sin embargo, la ortogonalidad de los factores es a menudo una suposición poco realista. Las rotaciones oblicuas incluyen la rotación ortogonal y, por esa razón, las rotaciones oblicuas son un método preferido. Permitir factores que están correlacionados entre sí es especialmente aplicable en la investigación psicométrica, ya que las actitudes, opiniones,

La rotación Quartimax es una alternativa ortogonal que minimiza el número de factores necesarios para explicar cada variable. Este tipo de rotación suele generar un factor general sobre el que se cargan en grado alto o medio la mayoría de las variables. Tal estructura factorial por lo general no es útil para el propósito de la investigación.

La rotación Equimax es un compromiso entre los criterios varimax y quartimax.

La rotación oblimin directa es el método estándar cuando se desea una solución no ortogonal (oblicua), es decir, una en la que se permita la correlación de los factores. Esto dará como resultado valores propios más altos pero una menor interpretabilidad de los factores. Vea abajo.

La rotación Promax es un método alternativo de rotación no ortogonal (oblicua) que es computacionalmente más rápido que el método oblimin directo y, por lo tanto, a veces se usa para conjuntos de datos muy grandes.

Análisis factorial de orden superior

El análisis factorial de orden superior es un método estadístico que consiste en repetir el análisis factorial de pasos – rotación oblicua – análisis factorial de factores rotados. Su mérito es permitir al investigador ver la estructura jerárquica de los fenómenos estudiados. Para interpretar los resultados, se procede ya sea a posmultiplicar la matriz de patrones de factores primarios por las matrices de patrones de factores de orden superior (Gorsuch, 1983) y tal vez aplicando una rotación Varimax al resultado (Thompson, 1990) o usando una matriz de patrón de factores de Schmidt. Solución de Leiman (SLS, Schmid & Leiman, 1957, también conocida como transformación de Schmid-Leiman) que atribuye la variación de los factores primarios a los factores de segundo orden.

En psicometria

Análisis factorial para el sorteo de valores

Historia

Charles Spearman fue el primer psicólogo en discutir el análisis de factor común y lo hizo en su artículo de 1904. Proporcionó pocos detalles sobre sus métodos y se ocupó de los modelos de un solo factor. Descubrió que las puntuaciones de los niños en edad escolar en una amplia variedad de materias aparentemente no relacionadas estaban correlacionadas positivamente, lo que le llevó a postular que una sola capacidad mental general, og, subyace y da forma al rendimiento cognitivo humano.

Louis Thurstone dio el desarrollo inicial del análisis de factor común con múltiples factores en dos artículos a principios de la década de 1930, resumidos en su libro de 1935, El vector de la mente. Thurstone introdujo varios conceptos importantes de análisis factorial, incluidos la comunalidad, la singularidad y la rotación. Abogó por una "estructura simple" y desarrolló métodos de rotación que podrían usarse como una forma de lograr dicha estructura.

En la metodología Q, Stephenson, alumno de Spearman, distingue entre el análisis factorial R, orientado al estudio de las diferencias interindividuales, y el análisis factorial Q orientado a las diferencias subjetivas intraindividuales.

Raymond Cattell fue un firme defensor del análisis factorial y la psicometría y utilizó la teoría multifactorial de Thurstone para explicar la inteligencia. Cattell también desarrolló la prueba "scree" y los coeficientes de similitud.

Aplicaciones en psicología

El análisis factorial se usa para identificar "factores" que explican una variedad de resultados en diferentes pruebas. Por ejemplo, la investigación de inteligencia encontró que las personas que obtienen una puntuación alta en una prueba de habilidad verbal también son buenas en otras pruebas que requieren habilidades verbales. Los investigadores explicaron esto utilizando el análisis factorial para aislar un factor, a menudo llamado inteligencia verbal, que representa el grado en que alguien es capaz de resolver problemas relacionados con las habilidades verbales.

El análisis factorial en psicología se asocia con mayor frecuencia con la investigación de inteligencia. Sin embargo, también se ha utilizado para encontrar factores en una amplia gama de dominios, como la personalidad, las actitudes, las creencias, etc. Está relacionado con la psicometría, ya que puede evaluar la validez de un instrumento al determinar si el instrumento realmente mide el postulado. factores

El análisis factorial es una técnica de uso frecuente en la investigación transcultural. Sirve al propósito de extraer dimensiones culturales. Los modelos de dimensiones culturales más conocidos son los elaborados por Geert Hofstede, Ronald Inglehart, Christian Welzel, Shalom Schwartz y Michael Minkov.

Ventajas

Reducción del número de variables, al combinar dos o más variables en un solo factor. Por ejemplo, el rendimiento en carrera, lanzamiento de pelota, bateo, salto y levantamiento de pesas podría combinarse en un solo factor, como la capacidad atlética general. Por lo general, en una matriz de elementos por personas, los factores se seleccionan agrupando elementos relacionados. En la técnica de análisis factorial Q, la matriz se transpone y los factores se crean agrupando personas relacionadas. Por ejemplo, los liberales, los libertarios, los conservadores y los socialistas pueden formar grupos separados.
Identificación de grupos de variables interrelacionadas, para ver cómo se relacionan entre sí. Por ejemplo, Carroll utilizó el análisis factorial para construir su teoría de los tres estratos. Encontró que un factor llamado "percepción visual amplia" se relaciona con qué tan bueno es un individuo en las tareas visuales. También encontró un factor de "percepción auditiva amplia", relacionado con la capacidad de la tarea auditiva. Además, encontró un factor global, llamado "g" o inteligencia general, que se relaciona tanto con la "percepción visual amplia" como con la "percepción auditiva amplia". Esto significa que es probable que alguien con una "g" alta tenga tanto una capacidad de "percepción visual" alta como una capacidad de "percepción auditiva" alta y, por lo tanto, esa "g" explica una buena parte de por qué alguien es bueno o malo en ambas. esos dominios.

Desventajas

"... cada orientación es igualmente aceptable matemáticamente. Pero diferentes teorías factoriales demostraron diferir tanto en términos de las orientaciones de los ejes factoriales para una solución dada como en cualquier otra cosa, por lo que el ajuste del modelo no demostró ser útil en distinguir entre teorías". (Sternberg, 1977). Esto significa que todas las rotaciones representan diferentes procesos subyacentes, pero todas las rotaciones son resultados igualmente válidos de la optimización del análisis factorial estándar. Por lo tanto, es imposible elegir la rotación adecuada utilizando solo el análisis factorial.
El análisis factorial puede ser tan bueno como lo permitan los datos. En psicología, donde los investigadores a menudo tienen que depender de medidas menos válidas y confiables, como los autoinformes, esto puede ser problemático.
La interpretación del análisis factorial se basa en el uso de una "heurística", que es una solución que es "conveniente aunque no sea absolutamente cierta". Se puede hacer más de una interpretación de los mismos datos factorizados de la misma manera, y el análisis factorial no puede identificar la causalidad.

Análisis factorial exploratorio (AFE) versus análisis de componentes principales (PCA)

El análisis factorial está relacionado con el análisis de componentes principales (PCA), pero los dos no son idénticos. Ha habido una controversia significativa en el campo sobre las diferencias entre las dos técnicas. PCA se puede considerar como una versión más básica del análisis factorial exploratorio (EFA) que se desarrolló en los primeros días antes de la llegada de las computadoras de alta velocidad. Tanto el PCA como el análisis factorial tienen como objetivo reducir la dimensionalidad de un conjunto de datos, pero los enfoques adoptados para hacerlo son diferentes para las dos técnicas. El análisis factorial está claramente diseñado con el objetivo de identificar ciertos factores no observables de las variables observadas, mientras que PCA no aborda directamente este objetivo; en el mejor de los casos, PCA proporciona una aproximación a los factores requeridos.Desde el punto de vista del análisis exploratorio, los valores propios de PCA son cargas de componentes infladas, es decir, contaminadas con varianza de error.

Si bien EFA y PCA se tratan como técnicas sinónimas en algunos campos de las estadísticas, esto ha sido criticado. El análisis factorial "se ocupa de la suposición de una estructura causal subyacente: [supone] que la covariación en las variables observadas se debe a la presencia de una o más variables latentes (factores) que ejercen una influencia causal sobre estas variables observadas".Por el contrario, PCA no asume ni depende de tal relación causal subyacente. Los investigadores han argumentado que las distinciones entre las dos técnicas pueden significar que existen beneficios objetivos al preferir una sobre la otra en función del objetivo analítico. Si el modelo factorial se formula incorrectamente o no se cumplen los supuestos, el análisis factorial dará resultados erróneos. El análisis factorial se ha utilizado con éxito cuando la comprensión adecuada del sistema permite buenas formulaciones iniciales del modelo. PCA emplea una transformación matemática de los datos originales sin suposiciones sobre la forma de la matriz de covarianza. El objetivo de PCA es determinar combinaciones lineales de las variables originales y seleccionar algunas que puedan usarse para resumir el conjunto de datos sin perder mucha información.

Argumentos que contrastan PCA y EFA

Fabrigar et al. (1999) abordan una serie de razones utilizadas para sugerir que PCA no es equivalente al análisis factorial:

A veces se sugiere que PCA es computacionalmente más rápido y requiere menos recursos que el análisis factorial. Fabrigar et al. sugieren que los recursos informáticos fácilmente disponibles han hecho que esta preocupación práctica sea irrelevante.
PCA y el análisis factorial pueden producir resultados similares. Este punto también es abordado por Fabrigar et al.; en ciertos casos, en los que las comunalidades son bajas (por ejemplo, 0,4), las dos técnicas producen resultados divergentes. De hecho, Fabrigar et al. argumentan que en los casos en que los datos corresponden a supuestos del modelo de factor común, los resultados de PCA son resultados inexactos.
Hay ciertos casos en los que el análisis factorial conduce a los 'casos de Heywood'. Estos abarcan situaciones en las que se estima que el modelo tiene en cuenta el 100% o más de la varianza en una variable medida. Fabrigar et al. sugieren que estos casos son realmente informativos para el investigador, lo que indica un modelo especificado incorrectamente o una violación del modelo de factor común. La falta de casos de Heywood en el enfoque de PCA puede significar que tales problemas pasan desapercibidos.
Los investigadores obtienen información adicional a partir de un enfoque de PCA, como la puntuación de un individuo en un determinado componente; dicha información no se obtiene del análisis factorial. Sin embargo, como Fabrigar et al. sostienen, el objetivo típico del análisis factorial, es decir, determinar los factores que dan cuenta de la estructura de las correlaciones entre las variables medidas, no requiere el conocimiento de las puntuaciones de los factores y, por lo tanto, se niega esta ventaja. También es posible calcular puntuaciones factoriales a partir de un análisis factorial.

Varianza versus covarianza

El análisis factorial tiene en cuenta el error aleatorio que es inherente a la medición, mientras que PCA no lo hace. Este punto lo ejemplifica Brown (2009), quien indicó que, respecto a las matrices de correlación involucradas en los cálculos:

"En PCA, los 1,00 se colocan en la diagonal, lo que significa que se debe tener en cuenta toda la varianza en la matriz (incluida la varianza única de cada variable, la varianza común entre las variables y la varianza del error). Por lo tanto, eso sería, por definición, incluyen toda la varianza en las variables. Por el contrario, en AFE, las comunalidades se colocan en la diagonal, lo que significa que solo se debe tener en cuenta la varianza compartida con otras variables (excluyendo la varianza única de cada variable y la varianza del error). por lo tanto, por definición, incluiría solo la varianza que es común entre las variables".— Brown (2009), Análisis de componentes principales y análisis factorial exploratorio: definiciones, diferencias y opciones

Por esta razón, Brown (2009) recomienda usar el análisis factorial cuando existen ideas teóricas sobre las relaciones entre variables, mientras que PCA debe usarse si el objetivo del investigador es explorar patrones en sus datos.

Diferencias en el procedimiento y los resultados

Suhr (2009) ilustra con más detalle las diferencias entre PCA y el análisis factorial (FA):

PCA da como resultado componentes principales que representan una cantidad máxima de varianza para las variables observadas; FA da cuenta de la varianza común en los datos.
PCA inserta unos en las diagonales de la matriz de correlación; FA ajusta las diagonales de la matriz de correlación con los factores únicos.
PCA minimiza la suma de la distancia perpendicular al cuadrado al eje del componente; FA estima los factores que influyen en las respuestas de las variables observadas.
Las puntuaciones de los componentes en PCA representan una combinación lineal de las variables observadas ponderadas por vectores propios; las variables observadas en FA son combinaciones lineales de los factores subyacentes y únicos.
En PCA, los componentes generados no son interpretables, es decir, no representan 'construcciones' subyacentes; en FA, las construcciones subyacentes se pueden etiquetar e interpretar fácilmente, dada una especificación de modelo precisa.

En marketing

Los pasos básicos son:

Identifique los atributos destacados que usan los consumidores para evaluar los productos en esta categoría.
Utilice técnicas de investigación de marketing cuantitativas (como encuestas) para recopilar datos de una muestra de clientes potenciales sobre sus calificaciones de todos los atributos del producto.
Introduzca los datos en un programa estadístico y ejecute el procedimiento de análisis factorial. La computadora producirá un conjunto de atributos (o factores) subyacentes.
Utilice estos factores para construir mapas de percepción y otros dispositivos de posicionamiento de productos.

Recopilación de información

La etapa de recopilación de datos generalmente la realizan profesionales de investigación de mercados. Las preguntas de la encuesta le piden al encuestado que califique una muestra de producto o descripciones de conceptos de productos en una variedad de atributos. Se eligen entre cinco y veinte atributos. Podrían incluir cosas como: facilidad de uso, peso, precisión, durabilidad, colorido, precio o tamaño. Los atributos elegidos variarán dependiendo del producto que se esté estudiando. Se hace la misma pregunta sobre todos los productos del estudio. Los datos de múltiples productos se codifican y se ingresan en un programa estadístico como R, SPSS, SAS, Stata, STATISTICA, JMP y SYSTAT.

Análisis

El análisis aislará los factores subyacentes que explican los datos usando una matriz de asociaciones.El análisis factorial es una técnica de interdependencia. Se examina el conjunto completo de relaciones interdependientes. No hay especificación de variables dependientes, variables independientes o causalidad. El análisis factorial supone que todos los datos de calificación de diferentes atributos pueden reducirse a unas pocas dimensiones importantes. Esta reducción es posible porque algunos atributos pueden estar relacionados entre sí. La calificación otorgada a cualquier atributo es parcialmente el resultado de la influencia de otros atributos. El algoritmo estadístico deconstruye la calificación (llamada puntaje bruto) en sus diversos componentes y reconstruye los puntajes parciales en puntajes de factores subyacentes. El grado de correlación entre la puntuación bruta inicial y la puntuación factorial final se denomina carga factorial.

Ventajas

Se pueden utilizar tanto atributos objetivos como subjetivos siempre que los atributos subjetivos se puedan convertir en puntuaciones.
El análisis factorial puede identificar dimensiones o construcciones latentes que el análisis directo no puede identificar.
Es fácil y económico.

Desventajas

La utilidad depende de la capacidad de los investigadores para recopilar un conjunto suficiente de atributos del producto. Si se excluyen o descuidan atributos importantes, se reduce el valor del procedimiento.
Si los conjuntos de variables observadas son muy similares entre sí y distintos de otros elementos, el análisis factorial les asignará un solo factor. Esto puede ocultar factores que representan relaciones más interesantes.
Nombrar factores puede requerir el conocimiento de la teoría porque los atributos aparentemente diferentes pueden correlacionarse fuertemente por razones desconocidas.

En ciencias físicas y biológicas

El análisis factorial también se ha utilizado ampliamente en ciencias físicas como la geoquímica, la hidroquímica, la astrofísica y la cosmología, así como en ciencias biológicas, como la ecología, la biología molecular, la neurociencia y la bioquímica.

En la gestión de la calidad del agua subterránea, es importante relacionar la distribución espacial de diferentes parámetros químicos con diferentes fuentes posibles, que tienen diferentes firmas químicas. Por ejemplo, es probable que una mina de sulfuro esté asociada con altos niveles de acidez, sulfatos disueltos y metales de transición. Estas firmas se pueden identificar como factores a través del análisis factorial en modo R, y la ubicación de las posibles fuentes se puede sugerir mediante el contorno de las puntuaciones de los factores.

En geoquímica, diferentes factores pueden corresponder a diferentes asociaciones minerales y, por lo tanto, a la mineralización.

En análisis de microarreglos

El análisis factorial se puede utilizar para resumir datos de micromatrices de ADN de oligonucleótidos de alta densidad a nivel de sonda para Affymetrix GeneChips. En este caso, la variable latente corresponde a la concentración de ARN en una muestra.

Implementación

El análisis factorial se ha implementado en varios programas de análisis estadístico desde la década de 1980:

BMDP
JMP (software estadístico)
Mplus (software estadístico)]
Python: módulo Scikit-aprender
R (con la función base factanal o función fa en el paquete psych). Las rotaciones se implementan en el paquete GPArotation R.
SAS (usando PROC FACTOR o PROC CALIS)
SPSS
Stata

Ser único

Factor [1] - software gratuito de análisis factorial desarrollado por la Universidad Rovira i Virgili

Contenido relacionado

Más resultados...