Clasificador Naive Bayes

Ajustar Compartir Imprimir Citar
algoritmo de clasificación probabilística

En estadística, los clasificadores bayesianos ingenuos son una familia de "clasificadores probabilísticos" basado en la aplicación de Bayes' teorema con fuertes (ingenuos) supuestos de independencia entre las características (ver clasificador de Bayes). Se encuentran entre los modelos de red bayesianos más simples, pero, junto con la estimación de la densidad del kernel, pueden lograr altos niveles de precisión.

Los clasificadores Naive Bayes son altamente escalables y requieren una cantidad de parámetros lineales en la cantidad de variables (características/predictores) en un problema de aprendizaje. El entrenamiento de máxima verosimilitud se puede realizar mediante la evaluación de una expresión de forma cerrada, que requiere un tiempo lineal, en lugar de una aproximación iterativa costosa como se usa para muchos otros tipos de clasificadores.

En la literatura estadística, los modelos bayesianos ingenuos se conocen con una variedad de nombres, incluidos bayes simple y bayes independiente. Todos estos nombres hacen referencia al uso de Bayes' teorema en la regla de decisión del clasificador, pero el ingenuo Bayes no es (necesariamente) un método bayesiano.

Introducción

Naive Bayes es una técnica simple para construir clasificadores: modelos que asignan etiquetas de clase a instancias de problemas, representadas como vectores de valores de características, donde las etiquetas de clase se extraen de un conjunto finito. No existe un solo algoritmo para entrenar tales clasificadores, sino una familia de algoritmos basados en un principio común: todos los clasificadores ingenuos de Bayes asumen que el valor de una característica particular es independiente del valor de cualquier otra característica, dada la variable de clase. Por ejemplo, se puede considerar que una fruta es una manzana si es roja, redonda y de unos 10 cm de diámetro. Un clasificador de Bayes ingenuo considera que cada una de estas características contribuye de forma independiente a la probabilidad de que esta fruta sea una manzana, independientemente de las posibles correlaciones entre las características de color, redondez y diámetro.

En muchas aplicaciones prácticas, la estimación de parámetros para modelos ingenuos de Bayes utiliza el método de máxima verosimilitud; en otras palabras, se puede trabajar con el modelo ingenuo de Bayes sin aceptar la probabilidad bayesiana ni utilizar ningún método bayesiano.

A pesar de su diseño ingenuo y suposiciones aparentemente demasiado simplificadas, los clasificadores bayesianos ingenuos han funcionado bastante bien en muchas situaciones complejas del mundo real. En 2004, un análisis del problema de clasificación bayesiano mostró que existen sólidas razones teóricas para la eficacia aparentemente inverosímil de los clasificadores bayesianos ingenuos. Aún así, una comparación exhaustiva con otros algoritmos de clasificación en 2006 mostró que la clasificación de Bayes es superada por otros enfoques, como árboles potenciados o bosques aleatorios.

Una ventaja de Naive Bayes es que solo requiere una pequeña cantidad de datos de entrenamiento para estimar los parámetros necesarios para la clasificación.

Modelo probabilístico

Resumen, Bahías ingenuas es un modelo de probabilidad condicional: asigna probabilidades p()Ck▪ ▪ x1,...... ,xn){displaystyle p(C_{k}mid x_{1},ldotsx_{n}} para cada una de las K posibles resultados o clases Ck{displaystyle C_{k} dado un caso problemático para ser clasificado, representado por un vector x=()x1,...... ,xn){displaystyle mathbf {x} =(x_{1},ldotsx_{n}} algunos n características (variables independientes).

El problema con la formulación anterior es que si la cantidad de funciones n es grande o si una función puede asumir una gran número de valores, entonces no es factible basar dicho modelo en tablas de probabilidad. Por lo tanto, el modelo debe reformularse para hacerlo más manejable. Uso de Bayes' teorema, la probabilidad condicional se puede descomponer como:

p()Ck▪ ▪ x)=p()Ck)p()x▪ ▪ Ck)p()x){displaystyle p(C_{k}mid mathbf {x})={frac {p(C_{k} p(mathbf {x} mid C_{k})}{p(mathbf {x}}},}}},}

En lenguaje sencillo, utilizando la terminología de probabilidad bayesiana, la ecuación anterior se puede escribir como

posterior=anteriores× × ♪♪pruebas{displaystyle {text{posterior}}={frac {text{prior}times {text{likelihood}}}}{text{eidence}}},}

En la práctica, sólo hay interés en el numerador de esa fracción, porque el denominador no depende de C{displaystyle C} y los valores de las características xi{displaystyle x_{i}} se dan, para que el denominador sea efectivamente constante. El numerador es equivalente al modelo de probabilidad articular

p()Ck,x1,...... ,xn){displaystyle p(C_{k},x_{1},ldotsx_{n},}

que se puede reescribir de la siguiente manera, usando la regla de la cadena para aplicaciones repetidas de la definición de probabilidad condicional:

p()Ck,x1,...... ,xn)=p()x1,...... ,xn,Ck)=p()x1▪ ▪ x2,...... ,xn,Ck)p()x2,...... ,xn,Ck)=p()x1▪ ▪ x2,...... ,xn,Ck)p()x2▪ ▪ x3,...... ,xn,Ck)p()x3,...... ,xn,Ck)=⋯ ⋯ =p()x1▪ ▪ x2,...... ,xn,Ck)p()x2▪ ▪ x3,...... ,xn,Ck)⋯ ⋯ p()xn− − 1▪ ▪ xn,Ck)p()xn▪ ▪ Ck)p()Ck){displaystyle {begin{aligned}p(C_{k},x_{1},ldotsx_{n}) {=p(x_{1},ldotsx_{n},C_{k})\=p(x_{1}mid x_{2},ldotsx_{n} {c}c}c_}c_}c_}c_c_c_c_c_c_c_c_}ccccccccccccc}ccccccccc_cH00}ccccccccccccccH00}ccH00}ccH00}ccH00}ccH00}cccH p(x_{2},ldotsx_{n},C_{k})\=p(x_{1}mid x_{2},ldotsx_{n}) p(x_{2}mid x_{3},ldotsx_{n},C_{k}) p(x_{3},ldotsx_{n},C_{k})\ ################################################################################################################################################################################################################################################################ x_{n},C_{k}) p(x_{n}mid C_{k} {fnMicrosoft Sans Serif}

Ahora las suposiciones de independencia condicional "naive" entran en juego: asumen que todas las características en x{displaystyle mathbf {x} son mutuamente independientes, condicionadas a la categoría Ck{displaystyle C_{k}. Con arreglo a esta hipótesis,

p()xi▪ ▪ xi+1,...... ,xn,Ck)=p()xi▪ ▪ Ck){displaystyle p(x_{i}mid x_{i+1},ldotsx_{n},C_{k})=p(x_{i}mid C_{k},}.

Por lo tanto, el modelo conjunto se puede expresar como

p()Ck▪ ▪ x1,...... ,xn)∝ ∝ p()Ck,x1,...... ,xn)∝ ∝ p()Ck)p()x1▪ ▪ Ck)p()x2▪ ▪ Ck)p()x3▪ ▪ Ck)⋯ ⋯ ∝ ∝ p()Ck)∏ ∏ i=1np()xi▪ ▪ Ck),{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}fn}fn}fn}cccH00}cccH00}cH00}cH00cH00}cccH00}cccH00cH00cH00} ¿Por qué?

Donde ∝ ∝ {displaystyle varpropto } denota proporcionalidad.

Esto significa que bajo los supuestos de independencia anteriores, la distribución condicional sobre la variable de clase C{displaystyle C} es:

p()Ck▪ ▪ x1,...... ,xn)=1Zp()Ck)∏ ∏ i=1np()xi▪ ▪ Ck){displaystyle p(C_{k}mid x_{1},ldotsx_{n}={frac {1}{Z}}p(C_{k})prod ################################################################################################################################################################################################################################################################ C_{k}}

Donde las pruebas Z=p()x)=.. kp()Ck)p()x▪ ▪ Ck){displaystyle Z=p(mathbf {x})=sum _{k}p(C_{k}) p(mathbf {x} mid C_{k}}} es un factor de escalar dependiente sólo x1,...... ,xn{displaystyle x_{1},ldotsx_{n}, es decir, una constante si se conocen los valores de las variables características.

Construyendo un clasificador a partir del modelo de probabilidad

La discusión hasta ahora ha derivado el modelo de característica independiente, es decir, el modelo ingenua de probabilidad Bayes. El ingenuo clasificador Bayes combina este modelo con una regla de decisión. Una regla común es elegir la hipótesis que es más probable para minimizar la probabilidad de clasificación errónea; esto se conoce como la máximo a posteriori o MAP Regla de decisión. El clasificador correspondiente, un clasificador de Bayes, es la función que asigna una etiqueta de clase Sí.^ ^ =Ck{displaystyle {hat {y}=C_{k} para algunos k como sigue:

Sí.^ ^ =argmaxk▪ ▪ {}1,...... ,K}p()Ck)∏ ∏ i=1np()xi▪ ▪ Ck).{displaystyle {hat {y}={underset {kin{1,ldotsK}{operatorname {argmax}} p(C_{k})displaystyle prod _{i=1}{n}p(x_{i}mid} C_{k}).}
Funciones de probabilidad p()x▪ ▪ Y){displaystyle p(mathbf {x} mid Y)}, matriz de confusión y curva ROC. Para el ingenuo clasificador de Bayes y dado que las probabilidades a priori p()Y){displaystyle p(Y)} son los mismos para todas las clases, entonces el límite de decisión (línea verde) se colocaría en el punto donde las dos densidades de probabilidad intersectan, debido a p()Y▪ ▪ x)=p()Y)p()x▪ ▪ Y)p()x)∝ ∝ p()x▪ ▪ Y){displaystyle p(Ymid mathbf {x})={frac {p(Y) p(mathbf {x} mid Y)}{p(mathbf {x}}}}propto p(mathbf {x} mid Y)}}}}}}}}} {.

Estimación de parámetros y modelos de eventos

Antes de una clase se puede calcular asumiendo clases equitativas, es decir, p()Ck)=1K{displaystyle p(C_{k}={frac {1} {}}}, o calculando una estimación para la probabilidad de clase del conjunto de entrenamiento:

antes de una clase dada=no. de muestras en esa clasetotal de muestras{displaystyle {text{prior for a given class}}={frac {text{no. of samples in that class}}{text{total no. of samples}},}

Para estimar los parámetros de la distribución de una característica, se debe asumir una distribución o generar modelos no paramétricos para las características del conjunto de entrenamiento.

Las suposiciones sobre las distribuciones de características se denominan "modelo de eventos" del ingenuo clasificador Bayes. Para funciones discretas como las que se encuentran en la clasificación de documentos (incluido el filtrado de spam), las distribuciones multinomial y de Bernoulli son populares. Estos supuestos conducen a dos modelos distintos, que a menudo se confunden.

Bayes ingenuo gaussiano

Cuando se trata de datos continuos, una suposición típica es que los valores continuos asociados a cada clase se distribuyen de acuerdo a una distribución normal (o gausiana). Por ejemplo, suponga que los datos de entrenamiento contienen un atributo continuo, x{displaystyle x}. Los datos se segmentan por primera vez por la clase, y luego la media y varianza de x{displaystyle x} se computa en cada clase. Vamos μ μ k{displaystyle mu _{k} ser la media de los valores en x{displaystyle x} asociado con clase Ck{displaystyle C_{k}, y dejar σ σ k2{displaystyle sigma _{k}{2} ser la varianza corregida de los valores en Bessel x{displaystyle x} asociado con clase Ck{displaystyle C_{k}. Supongamos que uno ha recogido algún valor de observación v{displaystyle v}. Entonces, la probabilidad densidad de v{displaystyle v} dada una clase Ck{displaystyle C_{k}, es decir, p()x=v▪ ▪ Ck){displaystyle p(x=vmid C_{k}}, se puede computar por enchufar v{displaystyle v} en la ecuación para una distribución normal μ μ k{displaystyle mu _{k} y σ σ k2{displaystyle sigma _{k}{2}. Formalmente,

p()x=v▪ ▪ Ck)=12π π σ σ k2e− − ()v− − μ μ k)22σ σ k2{displaystyle p(x=vmid C_{k}={frac {1}{sqrt {2pi} sigma ¿Por qué? - Sí.

Otra técnica común para manejar valores continuos es usar el binning para discretizar los valores de las características y obtener un nuevo conjunto de características distribuidas por Bernoulli. Cierta literatura sugiere que esto es necesario para usar Naive Bayes, pero no es cierto, ya que la discretización puede descartar información discriminatoria.

A veces, la distribución de las densidades marginales condicionadas por la clase está lejos de ser normal. En estos casos, la estimación de la densidad kernel se puede utilizar para obtener una estimación más realista de las densidades marginales de cada clase. Este método, que fue introducido por John y Langley, puede aumentar considerablemente la precisión del clasificador.

Bayes ingenuas multinomiales

(feminine)

Con un modelo de evento multinomio, las muestras (vectores de alimentación) representan las frecuencias con las que ciertos eventos han sido generados por un multinomio ()p1,...... ,pn){displaystyle (p_{1},dotsp_{n}} Donde pi{displaystyle P_{i} es la probabilidad de que el evento i ocurre (o K tales multinomios en el caso multiclase). Una característica vectorial x=()x1,...... ,xn){displaystyle mathbf {x} =(x_{1},dotsx_{n}} es entonces un histograma, con xi{displaystyle x_{i}} contando el número de veces del evento i se observó en un caso particular. Este es el modelo de evento utilizado típicamente para la clasificación de documentos, con eventos que representan la ocurrencia de una palabra en un solo documento (ver bolsa de palabras supuesto). La probabilidad de observar un histograma x es dado por

p()x▪ ▪ Ck)=().. i=1nxi)!∏ ∏ i=1nxi!∏ ∏ i=1npkixi{displaystyle p(mathbf {x} mid C_{k})={frac {sum _{i=1}^{n}x_{i})}{prod ¡No! ¿Qué?

El clasificador bayesiano ingenuo multinomial se convierte en un clasificador lineal cuando se expresa en espacio logarítmico:

log⁡ ⁡ p()Ck▪ ▪ x)∝ ∝ log⁡ ⁡ ()p()Ck)∏ ∏ i=1npkixi)=log⁡ ⁡ p()Ck)+.. i=1nxi⋅ ⋅ log⁡ ⁡ pki=b+wk⊤ ⊤ x{displaystyle {begin{aligned}log p(C_{k}mid mathbf {x} {varpropto log left(p(C_{k})prod ################################################################################################################################################################################################################################################################ ################################################################################################################################################################################################################################################################ Mathbf {x} {fnK}}

Donde b=log⁡ ⁡ p()Ck){displaystyle b=log p(C_{k}} y wki=log⁡ ⁡ pki{displaystyle ¿Qué?.

Si una clase determinada y un valor de característica nunca aparecen juntos en los datos de entrenamiento, la estimación de probabilidad basada en la frecuencia será cero, porque la estimación de probabilidad es directamente proporcional al número de ocurrencias del valor de una característica. Esto es problemático porque eliminará toda la información en las otras probabilidades cuando se multipliquen. Por lo tanto, a menudo es deseable incorporar una corrección de muestra pequeña, llamada pseudoconteo, en todas las estimaciones de probabilidad, de modo que ninguna probabilidad se establezca nunca en exactamente cero. Esta forma de regularizar el bayesiano ingenuo se denomina suavizado de Laplace cuando la pseudocuenta es uno, y suavizado de Lidstone en el caso general.

Rennie et al. analizan los problemas con la suposición multinomial en el contexto de la clasificación de documentos y las posibles formas de aliviar esos problemas, incluido el uso de ponderaciones tf-idf en lugar de frecuencias de términos sin procesar y longitud del documento normalización, para producir un clasificador bayesiano ingenuo que sea competitivo con las máquinas de vectores de soporte.

Bernoulli ingenua Bayes

(feminine)

En el modelo de evento multivariable Bernoulli, las características son Booleanos independientes (variables binarias) que describen las entradas. Como el modelo multinomio, este modelo es popular para las tareas de clasificación de documentos, donde las características de ocurrencia de término binario se utilizan en lugar de frecuencias de término. Si xi{displaystyle x_{i}} es un booleano que expresa la ocurrencia o ausencia de la i'el término del vocabulario, entonces la probabilidad de un documento dado a una clase Ck{displaystyle C_{k} es dado por:

p()x▪ ▪ Ck)=∏ ∏ i=1npkixi()1− − pki)()1− − xi){displaystyle p(mathbf {x} mid C_{k}=prod ¿Por qué?

Donde pki{displaystyle p_{ki} es la probabilidad de clase Ck{displaystyle C_{k} generación del término xi{displaystyle x_{i}}. Este modelo de evento es especialmente popular para clasificar textos cortos. Tiene el beneficio de modelar explícitamente la ausencia de términos. Tenga en cuenta que un ingenuo clasificador de Bayes con un modelo de evento Bernoulli no es el mismo que un clasificador multinomio NB con recuentos de frecuencia truncados a uno.

Estimación de parámetros semisupervisada

Dada una forma de entrenar un clasificador bayesiano ingenuo a partir de datos etiquetados, es posible construir un algoritmo de entrenamiento semisupervisado que pueda aprender de una combinación de datos etiquetados y no etiquetados mediante la ejecución del algoritmo de aprendizaje supervisado en un bucle.:

Dada una colección D=L⊎ ⊎ U{displaystyle D=Luplus U} de muestras etiquetadas L y muestras sin etiquetar U, empezar por entrenar un ingenuo clasificador de Bayes en L.
Hasta la convergencia, haz:
Predecir las probabilidades de clase P()C▪ ▪ x){displaystyle P(Cmid x)} para todos los ejemplos x dentro D{displaystyle D}.
Re-entrenar el modelo basado en probabilidades (no las etiquetas) predicho en el paso anterior.

La convergencia se determina sobre la base de la mejora de la probabilidad modelo P()D▪ ▪ Silencio Silencio ){displaystyle P(Dmid theta)}, donde Silencio Silencio {displaystyle theta } denota los parámetros del modelo ingenuo Bayes.

Este algoritmo de entrenamiento es una instancia del algoritmo de maximización de expectativas (EM) más general: el paso de predicción dentro del ciclo es el paso E de EM, mientras que el reentrenamiento de ingenuo Bayes es el paso M. El algoritmo se justifica formalmente por la suposición de que los datos son generados por un modelo mixto, y los componentes de este modelo mixto son exactamente las clases del problema de clasificación.

Discusión

A pesar del hecho de que las suposiciones de independencia de gran alcance a menudo son inexactas, el clasificador ingenuo de Bayes tiene varias propiedades que lo hacen sorprendentemente útil en la práctica. En particular, el desacoplamiento de las distribuciones de características condicionales de clase significa que cada distribución se puede estimar de forma independiente como una distribución unidimensional. Esto ayuda a aliviar los problemas derivados de la maldición de la dimensionalidad, como la necesidad de conjuntos de datos que se escalen exponencialmente con la cantidad de funciones. Si bien el bayesiano ingenuo a menudo no produce una buena estimación de las probabilidades de clase correctas, esto puede no ser un requisito para muchas aplicaciones. Por ejemplo, el clasificador ingenuo de Bayes hará la clasificación correcta de la regla de decisión MAP siempre que la clase correcta se prediga como más probable que cualquier otra clase. Esto es cierto independientemente de si la estimación de probabilidad es leve o incluso muy inexacta. De esta manera, el clasificador general puede ser lo suficientemente robusto como para ignorar serias deficiencias en su modelo de probabilidad ingenuo subyacente. Otras razones para el éxito observado del clasificador de Bayes ingenuo se discuten en la literatura citada a continuación.

Relación con la regresión logística

En el caso de entradas discretas (indicadores o funciones de frecuencia para eventos discretos), los clasificadores ingenuos Bayes forman un generative-discriminative par con clasificadores de regresión logística (multinomial): cada clasificador ingenua Bayes puede ser considerado una manera de encajar un modelo de probabilidad que optimiza la probabilidad de articulación p()C,x){displaystyle p(C,mathbf {x}, mientras que la regresión logística se ajusta al mismo modelo de probabilidad para optimizar el condicional p()C▪ ▪ x){displaystyle p(Cmid mathbf {x}}.

Más formalmente, tenemos lo siguiente:

TheoremLos clasificadores de Naive Bayes en características binarias son subsumidos por clasificadores de regresión logística.

Prueba

Considere un problema genérico de clasificación multiclase, con posibles clases Y▪ ▪ {}1,...,n}{displaystyle Yin {1,...,n}, entonces el (no-naive) El clasificador de Bayes da, por Bayes teorem:

Pr()YSilencioX=x)=softmax(){}In⁡ ⁡ Pr()Y=k)+In⁡ ⁡ Pr()X=xSilencioY=k)}k){displaystyle Pr(Y habitX=x)=softmax({ln Pr(Y=k)+ln Pr(X=x habitY=k)}_{k})}

El ingenuo clasificador de Bayes da

softmax(){}In⁡ ⁡ Pr()Y=k)+12.. i()ai,k+− − ai,k− − )xi+()ai,k++ai,k− − )}k)[displaystyle softmaxleft{ln Pr(Y=k)+{frac {1}{2}sum _{i}(a_{i,k}{+}-a_{i,k}{-})x_{i}+(a_{i,k}{i, k}{i, k} {i}{-}}{-}}}}{-}}}}}}}}}}}}} {}}} {c}}}}}}}}}}} {c}}}}} {c} {c}} {c}}}}} {c}}}}} {c}}}}}}}} {cc}}}}}}}}}}}}} {cccccccccccccccccccccccccccccc {fnMicrosoft Sans Serif}
Donde

ai,s+=In⁡ ⁡ Pr()Xi=+1SilencioY=s);ai,s− − =In⁡ ⁡ Pr()Xi=− − 1SilencioY=s){displaystyle a_{i,s}{+}=ln Pr(X_{i}=+1 impery=s);quad a_{i,s}^{-}=ln Pr(X_{i}=-1

Esto es exactamente un clasificador de regresión logística.

El vínculo entre ambos se puede ver observando que la función de decisión para las bahías ingenuas (en el caso binario) puede ser reescrita como "clase de predictos C1{displaystyle C_{1} si las probabilidades de p()C1▪ ▪ x){displaystyle p(C_{1}mid mathbf {x}} de los p()C2▪ ▪ x){displaystyle p(C_{2}mid mathbf {x}}". Expresar esto en el espacio de registro da:

0}" xmlns="http://www.w3.org/1998/Math/MathML">log⁡ ⁡ p()C1▪ ▪ x)p()C2▪ ▪ x)=log⁡ ⁡ p()C1▪ ▪ x)− − log⁡ ⁡ p()C2▪ ▪ x)■0{displaystyle log {frac {p(C_{1}mid mathbf {x}{p(C_{2}mid mathbf {x}}}}=log p(C_{1}mid mathbf {x})-log p(C_{2}mid mathbf {x})} {0}}0}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/37124050a930aaa468f14ebf14a7ebac1a455438" style="vertical-align: -2.671ex; width:48.241ex; height:6.509ex;"/>

El lado izquierdo de esta ecuación es el log-odds, o logit, la cantidad predicha por el modelo lineal que subyace a la regresión logística. Como Bayes ingenua es también un modelo lineal para los dos modelos de eventos "descretos", puede ser reparametrizado como una función lineal 0}" xmlns="http://www.w3.org/1998/Math/MathML">b+w⊤ ⊤ x■0{displaystyle b+mathbf {w} {top }x}0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/40c61e5290816a7a0b5977ada0443c6bd8c75a6a" style="vertical-align: -0.505ex; width:12.871ex; height:2.843ex;"/>. Obtener las probabilidades es entonces una cuestión de aplicar la función logística a b+w⊤ ⊤ x{displaystyle b+mathbf {fnh}, o en el caso multiclase, la función softmax.

Los clasificadores discriminativos tienen un error asintótico menor que los generativos; sin embargo, la investigación de Ng y Jordan ha demostrado que, en algunos casos prácticos, el bayesiano ingenuo puede superar a la regresión logística porque alcanza su error asintótico más rápido.

Ejemplos

Clasificación de personas

Problema: clasificar si una persona determinada es hombre o mujer según las características medidas. Las características incluyen altura, peso y tamaño del pie. Aunque con el clasificador NB los tratamos como independientes, en realidad no lo son.

Entrenamiento

Ejemplo de conjunto de entrenamiento a continuación.

Personaaltura (pies)peso (lbs)tamaño de pie(pulgadas)
Hombre618012
Hombre5.92 (5'11")19011
Hombre5.58 (5'7")17012
Hombre5.92 (5'11")16510
hembra51006
hembra5.5 (5'6")1508
hembra5.42 (5'5")1307
hembra5.75 (5'9")1509

El clasificador creado a partir del conjunto de entrenamiento utilizando una suposición de distribución gaussiana sería (las varianzas dadas son varianzas de muestra imparciales):

PersonaQuiero decir (altura)varianza (altura)media (peso)varianza (peso)media (tamaño de pies)varianza (tamaño de pies)
Hombre5.8553.5033 × 10−2176.251.2292 × 10211.259.1667 × 10−1
hembra5.41759.7225 × 10−2132,55.5833 × 1027.51.6667

El siguiente ejemplo asume clases equiprobables de modo que P(masculino)= P(femenino) = 0,5. Esta distribución de probabilidad previa podría basarse en el conocimiento previo de las frecuencias en la población más grande o en el conjunto de entrenamiento.

Pruebas

A continuación se muestra una muestra para ser clasificado como hombre o mujer.

Personaaltura (pies)peso (lbs)tamaño de pie(pulgadas)
muestra61308

Para clasificar la muestra hay que determinar qué posterior es mayor, macho o hembra. Para la clasificación como macho la posterior viene dada por

posterior (mujer)=P()Hombre)p()altura▪ ▪ Hombre)p()peso▪ ▪ Hombre)p()tamaño del pie▪ ▪ Hombre)evidence{texto {fnMicrosoft}fnMicrosoft {fnMicrosoft},p({text{height}}mid {text{male}}},p({text{weight}mid {text{male}}}}p({text{f}}}}f}f} {f} {f}}}}} {f}}}}} {f}}}}}}}}f}}}}}}}f}}f}}}}}}}}}}}}}}}}f}}}}}}f}f} {f} {f}f}}}f}f}}}}}}}}}}}}}}}f}f}f}f}f}f} {f}} {f}}}}}f}}}}}}}}}}}}}}}}}}}}}}}}}}

Para la clasificación como mujer el posterior viene dado por

posterior (mujer)=P()hembra)p()altura▪ ▪ hembra)p()peso▪ ▪ hembra)p()tamaño del pie▪ ▪ hembra)evidence{fnMicrosoft Sans Serif} {fnMicrosoft {fnMicrosoft},p({text{f}}}mid {text{f}}}f}fnK} {fnMicrosoft}f}f}fnK} {f}fnMinMicrosoft}} {f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}fnMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMin

La evidencia (también denominada constante de normalización) se puede calcular:

pruebas=P()Hombre)p()altura▪ ▪ Hombre)p()peso▪ ▪ Hombre)p()tamaño del pie▪ ▪ Hombre)+P()hembra)p()altura▪ ▪ hembra)p()peso▪ ▪ hembra)p()tamaño del pie▪ ▪ hembra){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft} {fnMicrosoft} {f}fnMicrosoft} {fnMicrosoft} {f}fnMicrosoft}f}fnMicrosoft}f}fnMicrosoft}fnMicrosoft}fnMicrosoft}f}f}fnMinMicrosoft}fnMinMis}fnMinMicrosoft}fnMinMinMis}fnMinMicrosoft}fnMicrosoft}fnMinMinMinMinMinMinMis}fnMinMinMinMinMinMinMicrosoftfnMinMinMinMinMinMinMinMinMin

Sin embargo, dada la muestra, la evidencia es una constante y, por lo tanto, escala ambos posteriores por igual. Por lo tanto, no afecta la clasificación y puede ignorarse. Ahora se puede determinar la distribución de probabilidad para el sexo de la muestra:

P()Hombre)=0.5{displaystyle P({text{male}}=0.5}
p()altura▪ ▪ Hombre)=12π π σ σ 2exp⁡ ⁡ ()− − ()6− − μ μ )22σ σ 2).. 1.5789{displaystyle p({text{height}}mid {text{male}}={frac {1}{sqrt {2pisigma ^{2}}}exp left({frac {-(6-mu)^{2}}{2sigma ^{2}}}right)approx 1.5789},

Donde μ μ =5.855{displaystyle mu =5.855} y σ σ 2=3.5033⋅ ⋅ 10− − 2{displaystyle sigma ^{2}=3.5033cdot 10^{-2} son los parámetros de distribución normal que se han determinado previamente desde el conjunto de entrenamiento. Tenga en cuenta que un valor superior a 1 está bien aquí – es una densidad de probabilidad en lugar de una probabilidad, porque altura es una variable continua.

p()peso▪ ▪ Hombre)=12π π σ σ 2exp⁡ ⁡ ()− − ()130− − μ μ )22σ σ 2)=5.9881⋅ ⋅ 10− − 6{displaystyle p({text{weight}mid {text{male}}={frac {1}{sqrt {2pisigma {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}{2}{2sigma ^{2}}}}right)=5.9881cdot 10^{-6}}
p()tamaño del pie▪ ▪ Hombre)=12π π σ σ 2exp⁡ ⁡ ()− − ()8− − μ μ )22σ σ 2)=1.3112⋅ ⋅ 10− − 3{displaystyle p({text{foot size}mid {text{male}}={frac {1}{sqrt {2pisigma ^{2}}}exp left({frac {-(8-mu)}{2sigma ^{2}}}}derecha)=1.3112cdot 10^{-3}}}}}}}}}}}}derecho)=1.
numerador posterior (hombre)=su producto=6.1984⋅ ⋅ 10− − 9{displaystyle {text{posterior numerator (male)}}={text{their product}=6.1984cdot 10^{-9}}
P()hembra)=0.5{displaystyle P({text{female}}=0.5}
p()altura▪ ▪ hembra)=2.23⋅ ⋅ 10− − 1{displaystyle p({text{height}}mid {text{female}}=2.23cdot 10^{-1}}
p()peso▪ ▪ hembra)=1.6789⋅ ⋅ 10− − 2{displaystyle p({text{weight}mid {text{female}}=1.6789cdot 10^{-2}}
p()tamaño del pie▪ ▪ hembra)=2.8669⋅ ⋅ 10− − 1{displaystyle p({text{foot size}mid {text{female}}=2.8669cdot 10^{-1}}
numerador posterior (mujer)=su producto=5.3778⋅ ⋅ 10− − 4{displaystyle {text{posterior numerator (female)}}={text{their product}=5.3778cdot 10^{-4}}

Como el numerador posterior es mayor en el caso femenino, la predicción es que la muestra sea femenina.

Clasificación de documentos

Este es un ejemplo resuelto de clasificación bayesiana ingenua para el problema de clasificación de documentos. Considere el problema de clasificar los documentos por su contenido, por ejemplo, en correos electrónicos no deseados y no deseados. Imagine que los documentos se extraen de una serie de clases de documentos que se pueden modelar como conjuntos de palabras donde la probabilidad (independiente) de que la i-ésima palabra de un documento dado se encuentre en un documento de la clase C Se puede escribir como

p()wi▪ ▪ C){displaystyle p(w_{i}mid C),}

(Para este tratamiento, las cosas se simplifican aún más al suponer que las palabras se distribuyen aleatoriamente en el documento, es decir, las palabras no dependen de la longitud del documento, la posición dentro del documento en relación con otras palabras u otro documento -contexto.)

Entonces la probabilidad de que un documento dado D contiene todas las palabras wi{displaystyle ¿Qué?, dada una clase C, es

p()D▪ ▪ C)=∏ ∏ ip()wi▪ ▪ C){displaystyle p(Dmid C)=prod ¿Qué?

La pregunta que tiene que ser contestada es: "Cuál es la probabilidad de que un documento dado D pertenece a una clase dada C¿?" En otras palabras, lo que es p()C▪ ▪ D){displaystyle p(Cmid D),}?

Ahora por definición

p()D▪ ▪ C)=p()D∩ ∩ C)p()C){displaystyle p(Dmid C)={p(Dcap C)over p(C)}

y

p()C▪ ▪ D)=p()D∩ ∩ C)p()D){displaystyle p(Cmid D)={p(Dcap C)over p(D)}

Bayés' el teorema los manipula en una declaración de probabilidad en términos de probabilidad.

p()C▪ ▪ D)=p()C)p()D▪ ▪ C)p()D){displaystyle p(Cmid D)={frac {p(C),p(Dmid C)}{p(D)}}}

Suponga por el momento que solo hay dos clases mutuamente excluyentes, S y ¬S (por ejemplo, spam y no spam), de modo que cada elemento (correo electrónico) es en uno o en el otro;

p()D▪ ▪ S)=∏ ∏ ip()wi▪ ▪ S){displaystyle p(Dmid S)=prod ¿Qué?

y

p()D▪ ▪ ¬ ¬ S)=∏ ∏ ip()wi▪ ▪ ¬ ¬ S){displaystyle p(Dmid neg S)=prod ¿Por qué?

Usando el resultado bayesiano anterior, uno puede escribir:

p()S▪ ▪ D)=p()S)p()D)∏ ∏ ip()wi▪ ▪ S){displaystyle p(Smid D)={p(S) over p(D)}prod _{i}p(w_{i}mid S)}
p()¬ ¬ S▪ ▪ D)=p()¬ ¬ S)p()D)∏ ∏ ip()wi▪ ▪ ¬ ¬ S){neg Sneg Smid D)={p(neg S) over p(D)},prod _{i}p(w_{i}midneg S)}

Dividiendo uno por el otro da:

p()S▪ ▪ D)p()¬ ¬ S▪ ▪ D)=p()S)∏ ∏ ip()wi▪ ▪ S)p()¬ ¬ S)∏ ∏ ip()wi▪ ▪ ¬ ¬ S){displaystyle {p(Smid D) over p(neg Smid D)}={p(S),prod _{i}p(w_{i}mid S) over p(neg S),prod _{i}p(w_{i}mid neg S)}}}}}}}

Que se puede refactorizar como:

p()S▪ ▪ D)p()¬ ¬ S▪ ▪ D)=p()S)p()¬ ¬ S)∏ ∏ ip()wi▪ ▪ S)p()wi▪ ▪ ¬ ¬ S){displaystyle {p(Smid D) over p(neg Smid D)}={p(S) over p(neg S)},prod ################################################################################################################################################################################################################################################################

Por lo tanto, la razón de probabilidad p(S | D) / p(¬S | D) puede expresarse en términos de una serie de razones de verosimilitud. La probabilidad real p(S | D) se puede calcular fácilmente a partir de log (p(S | D) / p(¬S | D)) basado en la observación de que p(S | D) + p (¬S | D) = 1.

Tomando el logaritmo de todas estas razones, se obtiene:

In⁡ ⁡ p()S▪ ▪ D)p()¬ ¬ S▪ ▪ D)=In⁡ ⁡ p()S)p()¬ ¬ S)+.. iIn⁡ ⁡ p()wi▪ ▪ S)p()wi▪ ▪ ¬ ¬ S){displaystyle ln {p(Smid D) over p(neg Smid D)}=ln {p(S) over p(neg S)}+sum _{i}ln {p(w_{i}mid S) over p(w_{i}midneg S)}}}}}

(Esta técnica de "cocientes de verosimilitud logarítmica" es una técnica común en estadística. En el caso de dos alternativas mutuamente excluyentes (como este ejemplo), la conversión de una razón de verosimilitud logarítmica en una probabilidad toma la forma de una curva sigmoidea: vea logit para más detalles).

Por último, el documento puede clasificarse como sigue. Es spam si p(neg Smid D)}" xmlns="http://www.w3.org/1998/Math/MathML">p()S▪ ▪ D)■p()¬ ¬ S▪ ▪ D){displaystyle p(Smid D)}p(neg Smid D)}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/3093d4746120e1b7bb3c4b9631bb4b6ada452374" style="vertical-align: -0.838ex; margin-left: -0.089ex; width:21.417ex; height:2.843ex;"/> (es decir, 0}" xmlns="http://www.w3.org/1998/Math/MathML">In⁡ ⁡ p()S▪ ▪ D)p()¬ ¬ S▪ ▪ D)■0{displaystyle ln {p(Smid D) over p(neg Smid D)} {0}}0}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/b85897fb33ae5412b69b7370ea932b1753795c26" style="vertical-align: -2.671ex; width:17.313ex; height:6.509ex;"/>), de lo contrario no es spam.