Estadísticas multivariadas

Compartir Imprimir Citar
Observación y análisis simultáneos de más de una variable de resultado

Estadística multivariada es una subdivisión de las estadísticas que abarca la observación y el análisis simultáneos de más de una variable de resultado. La estadística multivariante se ocupa de comprender los diferentes objetivos y antecedentes de cada una de las diferentes formas de análisis multivariante y cómo se relacionan entre sí. La aplicación práctica de las estadísticas multivariadas a un problema en particular puede implicar varios tipos de análisis univariados y multivariados para comprender las relaciones entre las variables y su relevancia para el problema que se estudia.

Además, las estadísticas multivariadas se ocupan de las distribuciones de probabilidad multivariadas, en términos de

  • cómo se pueden utilizar para representar las distribuciones de los datos observados;
  • cómo se pueden utilizar como parte de la inferencia estadística, especialmente cuando varias cantidades diferentes son de interés para el mismo análisis.

Ciertos tipos de problemas que involucran datos multivariantes, por ejemplo, la regresión lineal simple y la regresión múltiple, no generalmente se consideran casos especiales de estadísticas multivariantes porque el análisis se trata considerando el (univariado) distribución condicional de una sola variable de resultado dadas las otras variables.

Análisis multivariado

Análisis multivariante (MVA) se basa en los principios de la estadística multivariante. Por lo general, MVA se usa para abordar las situaciones en las que se realizan múltiples mediciones en cada unidad experimental y las relaciones entre estas mediciones y sus estructuras son importantes. Una categorización moderna y superpuesta de MVA incluye:

El análisis multivariado puede complicarse por el deseo de incluir análisis basados en la física para calcular los efectos de las variables para un "sistema de sistemas" jerárquico. A menudo, los estudios que desean utilizar el análisis multivariado se estancan por la dimensionalidad del problema. Estas preocupaciones a menudo se alivian mediante el uso de modelos sustitutos, aproximaciones altamente precisas del código basado en la física. Dado que los modelos sustitutos toman la forma de una ecuación, pueden evaluarse muy rápidamente. Esto se convierte en un habilitador para estudios MVA a gran escala: mientras que una simulación de Monte Carlo en el espacio de diseño es difícil con códigos basados en la física, se vuelve trivial cuando se evalúan modelos sustitutos, que a menudo toman la forma de ecuaciones de superficie de respuesta.

Tipos de análisis

Hay muchos modelos diferentes, cada uno con su propio tipo de análisis:

  1. El análisis multivariable de la varianza (MANOVA) amplía el análisis de la varianza para cubrir casos en los que hay más de una variable dependiente para analizar simultáneamente; véase también Análisis multivariable de la covariancia (MANCOVA).
  2. Intentos de regresión multivariable para determinar una fórmula que pueda describir cómo los elementos en un vector de variables responden simultáneamente a cambios en otros. Para las relaciones lineales, los análisis de regresión aquí se basan en formas del modelo lineal general. Algunos sugieren que la regresión multivariable es distinta de la regresión multivariable, sin embargo, que es debatida y no siempre verdadera en todos los campos científicos.
  3. El análisis de componentes principales (PCA) crea un nuevo conjunto de variables ortogonales que contienen la misma información que el conjunto original. Rota los ejes de variación para dar un nuevo conjunto de ejes ortogonales, ordenado para que resuman proporciones decrecientes de la variación.
  4. El análisis de factores es similar a PCA pero permite al usuario extraer un número específico de variables sintéticas, menos que el conjunto original, dejando la variación no explicada restante como error. Las variables extraídas se conocen como variables o factores latentes; cada una puede ser supuesta a tener en cuenta la covariación en un grupo de variables observadas.
  5. El análisis de correlación canónica encuentra relaciones lineales entre dos conjuntos de variables; es la versión generalizada (es decir, canónica) de correlación bivariada.
  6. El análisis de la redundancia (RDA) es similar al análisis de correlación canónica pero permite al usuario derivar un número específico de variables sintéticas de un conjunto de variables (independientes) que explican la mayor diferencia posible en otro conjunto (independiente). Es un análogo multivariado de regresión.
  7. Análisis de correspondencia (CA), o promedio recíproco, encuentra (como PCA) un conjunto de variables sintéticas que resumen el conjunto original. El modelo subyacente asume disimilaridades entre discos (casos).
  8. Análisis de correspondencia canónico (o "construido") (CCA) para resumir la variación conjunta en dos conjuntos de variables (como análisis de redundancia); combinación de análisis de correspondencia y análisis de regresión multivariable. El modelo subyacente asume disimilaridades entre discos (casos).
  9. El escalado multidimensional comprende varios algoritmos para determinar un conjunto de variables sintéticas que mejor representan las distancias pares entre registros. El método original es el análisis de coordenadas principales (PCoA; basado en PCA).
  10. Análisis discriminante, o análisis canónico variato, intenta determinar si se puede utilizar un conjunto de variables para distinguir entre dos o más grupos de casos.
  11. El análisis discriminante lineal (LDA) calcula un predictor lineal de dos conjuntos de datos normalmente distribuidos para permitir la clasificación de nuevas observaciones.
  12. Los sistemas de agrupación asignan objetos a grupos (llamados grupos) para que los objetos (casos) del mismo grupo sean más similares entre sí que los objetos de diferentes grupos.
  13. La partición Recursive crea un árbol de decisión que intenta clasificar correctamente a los miembros de la población sobre la base de una variable dependiente dicotomosa.
  14. Las redes neuronales artificiales extienden métodos de regresión y agrupación a modelos multivariables no lineales.
  15. Gráficos estadísticos como tours, diagramas de coordenadas paralelas, matrices dispersas se pueden utilizar para explorar datos multivariados.
  16. Los modelos de ecuaciones simultáneas implican más de una ecuación de regresión, con diferentes variables dependientes, calculadas juntos.
  17. Autorregreso vectorial implica regresiones simultáneas de varias variables de series temporales por su cuenta y los valores lagged de cada uno.
  18. El análisis de curvas de respuesta principal (PRC) es un método basado en RDA que permite al usuario centrarse en los efectos del tratamiento con el tiempo corrigiendo los cambios en los tratamientos de control con el tiempo.
  19. La iconografía de las correlaciones consiste en reemplazar una matriz de correlación por un diagrama donde las correlaciones “remarcables” están representadas por una línea sólida (correlación positiva), o una línea punteada (correlación negativa).

Distribuciones de probabilidad importantes

Hay un conjunto de distribuciones de probabilidad que se utilizan en los análisis multivariantes que desempeñan un papel similar al correspondiente conjunto de distribuciones que se utilizan en el análisis univariante cuando la distribución normal es adecuada para un conjunto de datos. Estas distribuciones multivariantes son:

  • Distribución normal multivariable
  • Distribución de los conocimientos
  • Distribución multivariable de Student-t.

La distribución de Wishart inversa es importante en la inferencia bayesiana, por ejemplo, en la regresión lineal multivariante bayesiana. Además, la distribución T cuadrada de Hotelling es una distribución multivariante, que generaliza la distribución t de Student, que se utiliza en las pruebas de hipótesis multivariantes.

Historia

El libro de texto de Anderson de 1958, Una introducción al análisis estadístico multivariante, educó a una generación de teóricos y estadísticos aplicados; El libro de Anderson enfatiza la prueba de hipótesis a través de pruebas de razón de verosimilitud y las propiedades de las funciones de potencia: admisibilidad, imparcialidad y monotonicidad.

MVA alguna vez estuvo únicamente en el ámbito de la teoría estadística debido al tamaño, la complejidad del conjunto de datos subyacente y el alto consumo computacional. Con el espectacular crecimiento del poder computacional, MVA ahora juega un papel cada vez más importante en el análisis de datos y tiene una amplia aplicación en los campos OMICS.

Aplicaciones

Software y herramientas

Existe una enorme cantidad de paquetes de software y otras herramientas para el análisis multivariante, que incluyen: