Regresión logística multinomial

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En estadística, la regresión logística multinomial es un método de clasificación que generaliza la regresión logística a problemas multiclase, es decir, con más de dos resultados discretos posibles. Es decir, es un modelo que se utiliza para predecir las probabilidades de los diferentes resultados posibles de una variable dependiente distribuida categóricamente, dado un conjunto de variables independientes (que pueden ser de valor real, de valor binario, de valor categórico, etc.).

La regresión logística multinomial se conoce con otros nombres, como LR politómica, LR multiclase, regresión softmax, logit multinomial (mlogit), clasificador de máxima entropía (MaxEnt) y modelo de máxima entropía condicional.

Antecedentes

La regresión logística multinomial se utiliza cuando la variable dependiente en cuestión es nominal (equivalentemente, categórica, es decir, que pertenece a una de las categorías que no se pueden ordenar de ninguna manera significativa) y para la cual existen más de dos categorías. Algunos ejemplos serían:

  • ¿Cuál de los mayores elegirá un estudiante universitario, dadas sus calificaciones, declarados gustos y disgustos, etc.?
  • ¿Qué tipo de sangre tiene una persona, dados los resultados de varias pruebas de diagnóstico?
  • En una aplicación de marcación de teléfono móvil sin manos, el nombre de la persona fue hablado, dadas varias propiedades de la señal del discurso?
  • ¿Para qué candidato votará una persona, dadas particular características demográficas?
  • ¿En qué país se ubicará una oficina, dadas las características de la firma y de los diversos países candidatos?

Todos estos son problemas de clasificación estadística. Todos tienen en común una variable dependiente que se debe predecir y que proviene de uno de un conjunto limitado de elementos que no se pueden ordenar de manera significativa, así como un conjunto de variables independientes (también conocidas como características, explicadores, etc.), que se utilizan para predecir la variable dependiente. La regresión logística multinomial es una solución particular para los problemas de clasificación que utilizan una combinación lineal de las características observadas y algunos parámetros específicos del problema para estimar la probabilidad de cada valor particular de la variable dependiente. Los mejores valores de los parámetros para un problema determinado se determinan generalmente a partir de algunos datos de entrenamiento (por ejemplo, algunas personas de las que se conocen tanto los resultados de las pruebas de diagnóstico como los tipos de sangre, o algunos ejemplos de palabras conocidas que se pronuncian).

Sumas

El modelo logístico multinomial supone que los datos son específicos de cada caso, es decir, cada variable independiente tiene un único valor para cada caso. Al igual que con otros tipos de regresión, no es necesario que las variables independientes sean estadísticamente independientes entre sí (a diferencia, por ejemplo, de un clasificador bayesiano ingenuo); sin embargo, se supone que la colinealidad es relativamente baja, ya que resulta difícil diferenciar entre el impacto de varias variables si este no es el caso.

Si se utiliza el logit multinomial para modelar las elecciones, se basa en el supuesto de independencia de alternativas irrelevantes (IIA), que no siempre es deseable. Este supuesto establece que las probabilidades de preferir una clase sobre otra no dependen de la presencia o ausencia de otras alternativas "irrelevantes". Por ejemplo, las probabilidades relativas de tomar un automóvil o un autobús para ir al trabajo no cambian si se agrega una bicicleta como una posibilidad adicional. Esto permite que la elección de K alternativas se modele como un conjunto de K-1 opciones binarias independientes, en las que una alternativa se elige como un "pivote" y las otras K-1 se comparan con ella, una a la vez. La hipótesis IIA es una hipótesis central en la teoría de la elección racional; sin embargo, numerosos estudios en psicología muestran que los individuos a menudo violan este supuesto al tomar decisiones. Un ejemplo de un caso problemático surge si las opciones incluyen un automóvil y un autobús azul. Supongamos que la razón de probabilidades entre ambos es 1:1. Ahora bien, si se introduce la opción del autobús rojo, una persona puede ser indiferente entre un autobús rojo y uno azul y, por lo tanto, puede presentar una razón de probabilidades coche: autobús azul: autobús rojo de 1:0,5:0,5, manteniendo así una razón de probabilidades de 1:1 de coche: cualquier autobús mientras adopta una razón de coche: autobús azul modificada de 1:0,5. En este caso, la opción del autobús rojo no era, de hecho, irrelevante, porque un autobús rojo era un sustituto perfecto de un autobús azul.

Si se utiliza el logit multinomial para modelar las opciones, en algunas situaciones puede imponer demasiadas restricciones a las preferencias relativas entre las diferentes alternativas. Es especialmente importante tenerlo en cuenta si el análisis pretende predecir cómo cambiarían las opciones si desapareciera una alternativa (por ejemplo, si un candidato político se retira de una contienda con tres candidatos). En estos casos se pueden utilizar otros modelos, como el logit anidado o el probit multinomial, ya que permiten la violación del IIA.

Modelo

Introducción

Existen múltiples formas equivalentes de describir el modelo matemático que subyace a la regresión logística multinomial. Esto puede dificultar la comparación de diferentes tratamientos del tema en diferentes textos. El artículo sobre regresión logística presenta varias formulaciones equivalentes de regresión logística simple, y muchas de ellas tienen análogos en el modelo logit multinomial.

La idea detrás de todas ellas, como en muchas otras técnicas de clasificación estadística, es construir una función predictora lineal que construya una puntuación a partir de un conjunto de pesos que se combinan linealmente con las variables explicativas (características) de una observación dada utilizando un producto escalar:

donde Xi es el vector de variables explicativas que describen la observación i, βk es un vector de pesos (o coeficientes de regresión) correspondientes al resultado k, y score(Xi, k) es el puntaje asociado con la asignación de la observación i a la categoría k. En la teoría de la elección discreta, donde las observaciones representan personas y los resultados representan elecciones, el puntaje se considera la utilidad asociada con la elección del resultado k por parte de la persona i. El resultado predicho es el que tiene el puntaje más alto.

La diferencia entre el modelo logit multinomial y otros numerosos métodos, modelos, algoritmos, etc. con la misma configuración básica (el algoritmo del perceptrón, las máquinas de vectores de soporte, el análisis discriminante lineal, etc.) es el procedimiento para determinar (entrenar) los pesos/coeficientes óptimos y la forma en que se interpreta la puntuación. En particular, en el modelo logit multinomial, la puntuación se puede convertir directamente en un valor de probabilidad, que indica la probabilidad de que la observación i elija el resultado k dadas las características medidas de la observación. Esto proporciona una forma basada en principios de incorporar la predicción de un modelo logit multinomial particular en un procedimiento más amplio que puede implicar múltiples predicciones de este tipo, cada una con una posibilidad de error. Sin estos medios de combinar predicciones, los errores tienden a multiplicarse. Por ejemplo, imaginemos un gran modelo predictivo que se divide en una serie de submodelos, donde la predicción de un submodelo dado se utiliza como entrada de otro submodelo, y esa predicción se utiliza a su vez como entrada de un tercer submodelo, etc. Si cada submodelo tiene una precisión del 90% en sus predicciones, y hay cinco submodelos en serie, entonces el modelo general tiene solo una precisión de 0,95 = 59%. Si cada submodelo tiene una precisión del 80%, entonces la precisión general cae a 0,85 = 33%. Este problema se conoce como propagación de errores y es un problema grave en los modelos predictivos del mundo real, que generalmente se componen de numerosas partes. Predecir las probabilidades de cada resultado posible, en lugar de simplemente hacer una única predicción óptima, es una forma de aliviar este problema.

Configuración

La configuración básica es la misma que en la regresión logística, con la única diferencia de que las variables dependientes son categóricas en lugar de binarias, es decir, hay K resultados posibles en lugar de sólo dos. La siguiente descripción está algo abreviada; para más detalles, consulte el artículo sobre regresión logística.

Puntos de datos

En concreto, se supone que tenemos una serie de N puntos de datos observados. Cada punto de datos i (que va de 1 a N) consta de un conjunto de M variables explicativas x1,i... xM,i (también conocidas como variables independientes, variables predictoras, características, etc.) y un resultado categórico asociado Yi (también conocido como variable dependiente, variable de respuesta), que puede adoptar uno de K valores posibles. Estos valores posibles representan categorías lógicamente separadas (p. ej., diferentes partidos políticos, tipos de sangre, etc.) y a menudo se describen matemáticamente asignando arbitrariamente a cada una un número de 1 a K. Las variables explicativas y el resultado representan propiedades observadas de los puntos de datos y, a menudo, se piensa que se originan en las observaciones de N "experimentos", aunque un "experimento" puede consistir simplemente en la recopilación de datos. El objetivo de la regresión logística multinomial es construir un modelo que explique la relación entre las variables explicativas y el resultado, de modo que el resultado de un nuevo "experimento" pueda predecirse correctamente para un nuevo punto de datos para el que estén disponibles las variables explicativas, pero no el resultado. En el proceso, el modelo intenta explicar el efecto relativo de las diferentes variables explicativas sobre el resultado.

Algunos ejemplos:

  • Los resultados observados son diferentes variantes de una enfermedad como la hepatitis (posiblemente incluyendo "no enfermedad" y/o otras enfermedades relacionadas) en un conjunto de pacientes, y las variables explicativas podrían ser características de los pacientes que se consideran pertinentes (sexo, raza, edad, presión arterial, resultados de diversos exámenes de funcionamiento del hígado, etc.). El objetivo es entonces predecir qué enfermedad está causando los síntomas relacionados con el hígado observados en un nuevo paciente.
  • Los resultados observados son el partido elegido por un grupo de personas en una elección, y las variables explicativas son las características demográficas de cada persona (por ejemplo, sexo, raza, edad, ingresos, etc.). El objetivo es entonces predecir el voto probable de un nuevo votante con características dadas.

predictor lineal

Como en otras formas de regresión lineal, la regresión logística multinomial utiliza una función de predictor lineal para predecir la probabilidad de que la observación i resultados k, de la siguiente forma:

Donde es un coeficiente de regresión asociado con el mla variable explicativa y la kel resultado. Como se explica en el artículo de regresión logística, los coeficientes de regresión y las variables explicativas se agrupan normalmente en vectores de tamaño M+1, para que la función predictor se pueda escribir más compactamente:

Donde es el conjunto de coeficientes de regresión asociados con el resultado k, y (un vector de fila) es el conjunto de variables explicativas asociadas con la observación i.

Como conjunto de regresiones binarias independientes

Para llegar al modelo logit multinomial, se puede imaginar, para K resultados posibles, ejecutar K modelos de regresión logística binaria independientes, en los que se elige un resultado como "pivote" y luego se hace una regresión por separado de los otros K-1 resultados contra el resultado pivote. Si se elige el resultado K (el último resultado) como pivote, las ecuaciones de regresión K-1 son:

.

Esta fórmula también se conoce como transformación de razón logarítmica aditiva, que se utiliza habitualmente en el análisis de datos compositivos. En otras aplicaciones se la denomina “riesgo relativo”.

Si exponenciamos ambos lados y resolvemos las probabilidades, obtenemos:

Usando el hecho de que todas las K probabilidades deben sumar uno, encontramos:

.

Podemos usar esto para encontrar las otras probabilidades:

.

El hecho de que realicemos múltiples regresiones revela por qué el modelo se basa en el supuesto de independencia de las alternativas irrelevantes descrito anteriormente.

Estimación de los coeficientes

Los parámetros desconocidos en cada vector βk se estiman típicamente de manera conjunta mediante la estimación máxima a posteriori (MAP), que es una extensión de la máxima verosimilitud que utiliza la regularización de los pesos para evitar soluciones patológicas (normalmente una función de regularización al cuadrado, que es equivalente a colocar una distribución previa gaussiana de media cero en los pesos, pero también son posibles otras distribuciones). La solución se encuentra típicamente utilizando un procedimiento iterativo como el escalamiento iterativo generalizado, los mínimos cuadrados reponderados iterativamente (IRLS), por medio de algoritmos de optimización basados en gradientes como L-BFGS, o por algoritmos especializados de descenso de coordenadas.

Como modelo log-linear

La formulación de la regresión logística binaria como un modelo log-lineal se puede extender directamente a la regresión multidireccional. Es decir, modelamos el logaritmo de la probabilidad de ver un resultado determinado utilizando el predictor lineal, así como un factor de normalización adicional, el logaritmo de la función de partición:

.

Como en el caso binario, necesitamos un término extra para asegurar que todo el conjunto de probabilidades forme una distribución de probabilidad, es decir, para que todos resuman una:

La razón por la que necesitamos agregar un término para garantizar la normalización, en lugar de multiplicarlo como es habitual, es porque hemos tomado el logaritmo de las probabilidades. Al exponenciar ambos lados, el término aditivo se convierte en un factor multiplicativo, de modo que la probabilidad es simplemente la medida de Gibbs:

.

La cantidad Z se denomina función de partición de la distribución. Podemos calcular el valor de la función de partición aplicando la restricción anterior que requiere que todas las probabilidades sumen 1:

Por lo tanto:

Obsérvese que este factor es "constante" en el sentido de que no es una función de Yi, que es la variable sobre la que se define la distribución de probabilidad. Sin embargo, definitivamente no es constante con respecto a las variables explicativas o, fundamentalmente, con respecto a los coeficientes de regresión desconocidos βk, que necesitaremos determinar mediante algún tipo de procedimiento de optimización.

Las ecuaciones resultantes para las probabilidades son

.

O en general:

La siguiente función:

se conoce como la función softmax. La razón es que el efecto de exponente de los valores es exagerar las diferencias entre ellos. Como resultado, devolverá un valor cercano a 0 cada vez es significativamente menor que el máximo de todos los valores, y devolverá un valor cercano a 1 cuando se aplique al valor máximo, a menos que sea extremadamente cercano al valor más grande siguiente. Así, la función softmax se puede utilizar para construir un promedio ponderado que se comporta como una función lisa (que puede ser convenientemente diferenciada, etc.) y que aproxima la función indicadora

Por lo tanto, podemos escribir las ecuaciones de probabilidad como

La función softmax sirve entonces como equivalente de la función logística en la regresión logística binaria.

Note que no todo el vectores de coeficientes son únicamente identificables. Esto se debe al hecho de que todas las probabilidades deben resumir a 1, haciendo de uno de ellos completamente determinado una vez que todos los demás son conocidos. Como resultado, sólo hay por separado probabilidades especificables, y por lo tanto vectores identificables por separado de coeficientes. Una manera de ver esto es notar que si añadimos un vector constante a todos los vectores de coeficiente, las ecuaciones son idénticas:

Como resultado, es convencional establecer (o alternativamente, uno de los otros vectores de coeficiente). Esencialmente, establecimos la constante para que uno de los vectores se convierta en 0, y todos los otros vectores se transformen en la diferencia entre esos vectores y el vector que elegimos. Esto equivale a "pivotar" alrededor de uno de los K opciones, y examinar cuánto mejor o peor todos los demás K-1 opciones son, en relación con la elección que estamos girando alrededor. Matemáticamente, transformamos los coeficientes de la siguiente manera:

Esto nos lleva a las siguientes ecuaciones:

A excepción de los símbolos primos en los coeficientes de regresión, esta es exactamente la misma forma que la del modelo descrito anteriormente, en términos de K-1 regresiones independientes de dos vías.

Como modelo latente-variable

También es posible formular la regresión logística multinomial como un modelo de variable latente, siguiendo el modelo de variable latente de dos vías descrito para la regresión logística binaria. Esta formulación es común en la teoría de modelos de elección discreta y facilita la comparación de la regresión logística multinomial con el modelo probit multinomial relacionado, así como su extensión a modelos más complejos.

Imagínese que, para cada punto de datos i y posible resultado k=1,2,...,K, existe una variable latente continua Yi,k* (es decir, una variable aleatoria no observada) que se distribuye de la siguiente manera:

Donde es decir, una distribución de valor extremo tipo-1 estándar.

Esta variable latente se puede considerar como la utilidad asociada al punto de datos i elección de resultados k, donde hay cierta aleatoriedad en la cantidad real de utilidad obtenida, que representa otros factores no modelados que entran en la elección. El valor de la variable real se determina entonces de forma no rara de estas variables latentes (es decir, la aleatoriedad se ha movido de los resultados observados a las variables latentes), donde el resultado k es elegido si y sólo si la utilidad asociada (el valor de ) es mayor que las utilidades de todas las otras opciones, es decir, si la utilidad asociada con el resultado k es el máximo de todas las utilidades. Dado que las variables latentes son continuas, la probabilidad de que dos tengan exactamente el mismo valor es 0, así que ignoramos el escenario. Es decir:

O equivalentemente:

Veamos más de cerca la primera ecuación, que podemos escribir de la siguiente manera:

Hay algunas cosas que debemos tener en cuenta aquí:

  1. En general, si y entonces Es decir, la diferencia de dos variables distribuidas de forma idéntica y distribuidas de valor extremo sigue la distribución logística, donde el primer parámetro no es importante. Esto es comprensible ya que el primer parámetro es un parámetro de ubicación, es decir, cambia la media por una cantidad fija, y si dos valores se desplazan por la misma cantidad, su diferencia sigue siendo la misma. Esto significa que todas las declaraciones relacionales que subyacen a la probabilidad de una elección determinada implican la distribución logística, que hace la elección inicial de la distribución de valor extremo, que parecía bastante arbitraria, algo más comprensible.
  2. El segundo parámetro en una distribución de valor extremo o logística es un parámetro de escala, tal que si entonces Esto significa que el efecto de utilizar una variable de error con un parámetro de escala arbitraria en lugar de escala 1 puede ser compensado simplemente multiplicando todos los vectores de regresión por la misma escala. Junto con el punto anterior, esto muestra que el uso de una distribución estándar de valor extremo (ubicación 0, escala 1) para las variables de error no implica pérdida de generalidad sobre el uso de una distribución arbitraria de valor extremo. De hecho, el modelo no es identificable (ninguno conjunto de coeficientes óptimos) si se utiliza la distribución más general.
  3. Debido a que sólo se utilizan diferencias de vectores de coeficientes de regresión, añadir una constante arbitraria a todos los vectores de coeficiente no tiene efecto en el modelo. Esto significa que, al igual que en el modelo log-linear, sólo K-1 de los vectores de coeficiente son identificables, y el último se puede establecer a un valor arbitrario (por ejemplo, 0).

En realidad, encontrar los valores de las probabilidades anteriores es algo difícil y es un problema de cálculo de una estadística de orden particular (la primera, es decir, la máxima) de un conjunto de valores. Sin embargo, se puede demostrar que las expresiones resultantes son las mismas que en las formulaciones anteriores, es decir, que las dos son equivalentes.

Estimación de la interceptación

Cuando se utiliza la regresión logística multinomial, se elige una categoría de la variable dependiente como categoría de referencia. Se determinan razones de probabilidades separadas para todas las variables independientes para cada categoría de la variable dependiente, con excepción de la categoría de referencia, que se omite del análisis. El coeficiente beta exponencial representa el cambio en las probabilidades de que la variable dependiente se encuentre en una categoría particular en comparación con la categoría de referencia, asociada con un cambio de una unidad de la variable independiente correspondiente.


Función de probabilidad

Los valores observados para de las variables explicadas se consideran realizaciones de variables stochastically independientes, distribuidas categóricamente .

La función de verosimilitud de este modelo se define mediante:

donde el índice denota las observaciones 1 a n y el índice denota las clases 1 a K. es el Kronecker delta.

La función de probabilidad de registro negativa es, por lo tanto, la conocida inter-entropía:

Aplicación en procesamiento de lenguaje natural

En el procesamiento del lenguaje natural, los clasificadores LR multinomiales se utilizan comúnmente como una alternativa a los clasificadores bayesianos ingenuos porque no suponen la independencia estadística de las variables aleatorias (comúnmente conocidas como características) que sirven como predictores. Sin embargo, el aprendizaje en un modelo de este tipo es más lento que en un clasificador bayesiano ingenuo y, por lo tanto, puede no ser apropiado si hay una gran cantidad de clases que aprender. En particular, el aprendizaje en un clasificador bayesiano ingenuo es una simple cuestión de contar la cantidad de coocurrencias de características y clases, mientras que en un clasificador de entropía máxima los pesos, que normalmente se maximizan utilizando la estimación máxima a posteriori (MAP), deben aprenderse utilizando un procedimiento iterativo; consulte #Estimación de los coeficientes.

Véase también

  • Regresión logística
  • Probito multinomio

Referencias

  1. ^ Greene, William H. (2012). Econometric Analysis (Seventh ed.). Boston: Pearson Education. pp. 803–806. ISBN 978-0-273-75356-8.
  2. ^ Engel, J. (1988). "Regreso logístico polímico". Statistica Neerlandica. 42 (4): 233–252. doi:10.1111/j.1467-9574.1988.tb01238.x.
  3. ^ Menard, Scott (2002). Análisis de regresión logística aplicada. SAGE. p. 91. ISBN 9780761922087.
  4. ^ a b Malouf, Robert (2002). Comparación de algoritmos para la estimación máxima del parámetro de entropía (PDF). Sexta Conf. on Natural Language Learning (CoNLL). pp. 49–55.
  5. ^ Belsley, David (1991). Diagnóstico condicionante: colinearidad y datos débiles en regresión. Wiley. ISBN 9780471528890.
  6. ^ Baltas, G.; Doyle, P. (2001). "Random Utility Models in Marketing Research: A Survey". Journal of Business Research. 51 (2): 115–125. doi:10.1016/S0148-2963(99)00058-2.
  7. ^ Stata Manual “mlogit — Multinomial (polytomous) regresión logística”
  8. ^ Darroch, J.N. " Ratcliff, D. (1972). "Calificación iterativa generalizada para modelos log-linear". Los Anales de las Estadísticas Matemáticas. 43 (5): 1470-1480. doi:10.1214/aoms/1177692379.
  9. ^ Bishop, Christopher M. (2006). Reconocimiento del patrón y aprendizaje automático. Springer. pp. 206–209.
  10. ^ Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "Métodos de descenso coordinables para regresión logística y modelos de entropía máxima" (PDF). Machine Learning. 85 (1–2): 41–75 doi:10.1007/s10994-010-5221-8.
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save