Clasificación estadística

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Categorización de datos utilizando estadísticas

En estadística, la clasificación es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una observación (u observaciones). Algunos ejemplos son asignar un correo electrónico determinado a la categoría "spam" o "no spam" clase, y asignar un diagnóstico a un paciente determinado basándose en las características observadas del paciente (sexo, presión arterial, presencia o ausencia de ciertos síntomas, etc.).

A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas como variables explicativas o características. Estas propiedades pueden ser categóricas (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre), ordinales (por ejemplo, "grande", "mediano" o "pequeño"), con valores enteros (por ejemplo, el número de apariciones de una palabra particular en un correo electrónico) o real- valorado (por ejemplo, una medición de la presión arterial). Otros clasificadores funcionan comparando observaciones con observaciones anteriores mediante una función de similitud o distancia.

Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como clasificador. El término "clasificador" a veces también se refiere a la función matemática, implementada por un algoritmo de clasificación, que asigna datos de entrada a una categoría.

La terminología en todos los campos es bastante variada. En estadística, donde la clasificación se realiza a menudo mediante regresión logística o un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes, regresores, etc.), y las categorías que se van a predecir se conocen como resultados, que se consideran ser valores posibles de la variable dependiente. En el aprendizaje automático, las observaciones a menudo se conocen como instancias, las variables explicativas se denominan características (agrupadas en un vector de características) y las posibles categorías que se pueden predecir son clases. Otros campos pueden utilizar terminología diferente: p.e. En ecología comunitaria, el término "clasificación" normalmente se refiere al análisis de conglomerados.

Relación con otros problemas

La clasificación y la agrupación son ejemplos del problema más general del reconocimiento de patrones, que es la asignación de algún tipo de valor de salida a un valor de entrada determinado. Otros ejemplos son la regresión, que asigna una salida de valor real a cada entrada; etiquetado de secuencia, que asigna una clase a cada miembro de una secuencia de valores (por ejemplo, etiquetado de parte del discurso, que asigna una parte del discurso a cada palabra en una oración de entrada); análisis, que asigna un árbol de análisis a una oración de entrada, describiendo la estructura sintáctica de la oración; etc.

Una subclase común de clasificación es la clasificación probabilística. Los algoritmos de esta naturaleza utilizan la inferencia estadística para encontrar la mejor clase para una instancia determinada. A diferencia de otros algoritmos, que simplemente generan una "mejor" clase, los algoritmos probabilísticos generan una probabilidad de que la instancia sea miembro de cada una de las clases posibles. Normalmente se selecciona la mejor clase como la que tiene la mayor probabilidad. Sin embargo, dicho algoritmo tiene numerosas ventajas sobre los clasificadores no probabilísticos:

  • Puede producir un valor de confianza asociado a su elección (en general, un clasificador que puede hacerlo se conoce como un Clasificador con peso de confianza).
  • Correspondientemente, puede abstención cuando su confianza en elegir cualquier producto en particular es demasiado baja.
  • Debido a las probabilidades que se generan, los clasificadores probabilísticos pueden incorporarse más eficazmente en tareas de aprendizaje automático más grandes, de una manera que evita parcialmente o por completo el problema de propagación del error.

Procedimientos frecuentistas

Fisher realizó los primeros trabajos sobre clasificación estadística, en el contexto de problemas de dos grupos, lo que llevó a la función discriminante lineal de Fisher como regla para asignar un grupo a una nueva observación. Este trabajo inicial asumió que los valores de datos dentro de cada uno de los dos grupos tenían una distribución normal multivariada. También se ha considerado la extensión de este mismo contexto a más de dos grupos con la restricción de que la regla de clasificación debe ser lineal. El trabajo posterior para la distribución normal multivariada permitió que el clasificador fuera no lineal: se pueden derivar varias reglas de clasificación basadas en diferentes ajustes de la distancia de Mahalanobis, asignando una nueva observación al grupo cuyo centro tiene la distancia ajustada más baja de la observación.

Procedimientos bayesianos

A diferencia de los procedimientos frecuentistas, los procedimientos de clasificación bayesianos proporcionan una forma natural de tener en cuenta cualquier información disponible sobre los tamaños relativos de los diferentes grupos dentro de la población general. Los procedimientos bayesianos tienden a ser computacionalmente costosos y, en los días previos a que se desarrollaran los cálculos de Monte Carlo en cadena de Markov, se idearon aproximaciones para las reglas de agrupamiento bayesiano.

Algunos procedimientos bayesianos implican el cálculo de probabilidades de pertenencia a grupos: estos proporcionan un resultado más informativo que una simple atribución de una única etiqueta de grupo a cada nueva observación.

Clasificación binaria y multiclase

La clasificación puede considerarse como dos problemas separados: clasificación binaria y clasificación multiclase. En la clasificación binaria, una tarea mejor entendida, sólo participan dos clases, mientras que la clasificación multiclase implica asignar un objeto a una de varias clases. Dado que muchos métodos de clasificación se han desarrollado específicamente para la clasificación binaria, la clasificación multiclase a menudo requiere el uso combinado de múltiples clasificadores binarios.

Vectores de características

La mayoría de los algoritmos describen una instancia individual cuya categoría se va a predecir utilizando un vector de características de propiedades individuales y medibles de la instancia. Cada propiedad se denomina característica, también conocida en estadística como variable explicativa (o variable independiente, aunque las características pueden ser o no estadísticamente independientes). Las funciones pueden ser binarias (por ejemplo, "activadas" o "desactivadas"); categórico (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre); ordinal (por ejemplo, "grande", "mediano" o "pequeño"); con valores enteros (por ejemplo, el número de apariciones de una palabra en particular en un correo electrónico); o de valor real (por ejemplo, una medición de la presión arterial). Si la instancia es una imagen, los valores de las características pueden corresponder a los píxeles de una imagen; si la instancia es un fragmento de texto, los valores de las características pueden ser frecuencias de aparición de diferentes palabras. Algunos algoritmos funcionan sólo en términos de datos discretos y requieren que los datos con valores reales o enteros se discreticen en grupos (por ejemplo, menos de 5, entre 5 y 10, o más de 10).

Clasificadores lineales

Un gran número de algoritmos de clasificación se pueden expresar en términos de una función lineal que asigna una puntuación a cada categoría posible k combinando el vector de características de una instancia con un vector de pesos, usando un producto escalar. La categoría prevista es la que tiene la puntuación más alta. Este tipo de función de puntuación se conoce como función predictora lineal y tiene la siguiente forma general:

puntuación⁡ ⁡ ()Xi,k)=β β k⋅ ⋅ Xi,{displaystyle operatorname {score} (mathbf {X} _{i},k)={boldsymbol {beta ¿Qué?
XiiβkkXikikik

Los algoritmos con esta configuración básica se conocen como clasificadores lineales. Lo que los distingue es el procedimiento para determinar (entrenar) los pesos/coeficientes óptimos y la forma en que se interpreta la puntuación.

Ejemplos de tales algoritmos incluyen

  • Regresión logística – Modelo estadístico para una variable dependiente binaria
    • regresión logística multinomial – regresión por más de dos resultados discretos
  • Regresión de Probit – regresión estadística donde la variable dependiente puede tomar sólo dos valoresPáginas que muestran descripciones cortas de objetivos redireccionados
  • El algoritmo de perceptron
  • Máquina vectorial de soporte – Conjunto de métodos para el aprendizaje estadístico supervisado
  • Análisis discriminante lineal – Método utilizado en estadísticas, reconocimiento de patrones y otros campos

Algoritmos

Dado que ninguna forma de clasificación es apropiada para todos los conjuntos de datos, se ha desarrollado un gran conjunto de herramientas de algoritmos de clasificación. Los más utilizados incluyen:

  • Redes neuronales artificiales – Modelo computacional utilizado en el aprendizaje automático, basado en funciones jerárquicas conectadasPáginas que muestran descripciones cortas de objetivos redireccionados
  • Boosting (meta-algorithm) – Método de aprendizaje automáticoPáginas que muestran descripciones cortas de objetivos redireccionados
  • Aprendizaje de árboles de decisión – algoritmo de aprendizaje automático
    • Bosque aleatorio – Método de aprendizaje automático conjunto de árboles de búsqueda binaria
  • Programación genética – Evolución de programas informáticos con técnicas análogas a procesos genéticos naturales
    • Programación de expresión genética – algoritmo evolutivo
    • Programación de múltiples expresiones
    • Programación genética lineal – tipo de algoritmo de programación genéticaPáginas que muestran descripciones de wikidata como retroceso
  • Estimación del kernel – Función de ventanaPáginas que muestran descripciones cortas de objetivos redireccionados
    • vecino de k-nearest – Método de clasificación no paramétricaPáginas que muestran descripciones cortas de objetivos redireccionados
  • Aprendizaje cuantificación vectorial
  • Clasificación lineal – Clasificación estadística en el aprendizaje automático
    • El discriminante lineal de Fisher - Método utilizado en estadísticas, reconocimiento de patrones y otros camposPáginas que muestran descripciones cortas de objetivos redireccionados
    • Regresión logística – Modelo estadístico para una variable dependiente binaria
    • Clasificación Naive Bayes – algoritmo de clasificación probabilística
    • Perceptron – Algoritmo para el aprendizaje supervisado de clasificadores binarios
  • Clasificador cuadrático – utilizado en el aprendizaje automático para mediciones separadas de dos o más clases de objetosPáginas que muestran descripciones de wikidata como retroceso
  • Máquina vectorial de soporte – Conjunto de métodos para el aprendizaje estadístico supervisado
    • Menos cuadrados soportan la máquina vectorial

Evaluación

El rendimiento del clasificador depende en gran medida de las características de los datos a clasificar. No existe un clasificador único que funcione mejor en todos los problemas dados (un fenómeno que puede explicarse mediante el teorema de no comer gratis). Se han realizado varias pruebas empíricas para comparar el desempeño del clasificador y encontrar las características de los datos que determinan el desempeño del clasificador. Sin embargo, determinar un clasificador adecuado para un problema determinado es más un arte que una ciencia.

Las medidas de precisión y recuperación son métricas populares que se utilizan para evaluar la calidad de un sistema de clasificación. Más recientemente, las curvas de características operativas del receptor (ROC) se han utilizado para evaluar la compensación entre tasas de verdaderos y falsos positivos de los algoritmos de clasificación.

Como métrica de rendimiento, el coeficiente de incertidumbre tiene la ventaja sobre la precisión simple de que no se ve afectado por los tamaños relativos de las diferentes clases. Además, no penalizará a un algoritmo por simplemente reorganizar las clases.

Dominios de aplicación

La clasificación tiene muchas aplicaciones. En algunos de ellos, se emplea como procedimiento de extracción de datos, mientras que en otros se lleva a cabo un modelado estadístico más detallado.

  • Clasificación biológica – La ciencia de identificar, describir, definir y nombrar grupos de organismos biológicos
  • Biométrica - Métricas relacionadas con las características humanasPáginas que muestran descripciones cortas de objetivos redireccionados identificación
  • Visión informática – Extracción de información computarizada de imágenes
    • Análisis de imágenes médicas e imágenes médicas – Técnica y proceso de creación de representaciones visuales del interior de un cuerpo
    • Reconocimiento de caracteres ópticos – Reconocimiento computacional del texto visual
    • Seguimiento de vídeo – encontrar el elemento en cada marco de una secuencia de vídeoPáginas que muestran descripciones de wikidata como retroceso
  • Nota de crédito – Expresión numérica que representa la solvencia de una personaPáginas que muestran descripciones cortas de objetivos redireccionados
  • Clasificación de documentos – Proceso de clasificación de documentos
  • descubrimiento y desarrollo de drogas – Proceso de traer una nueva droga farmacéutica al mercado
    • Toxicogenomics – rama de toxicología y genómicaPáginas que muestran descripciones de wikidata como retroceso
    • Relación de estructura cuantitativa-actividad – Predicción cuantitativa de la actividad biológica, ecotoxicológica o farmacéutica de una moléculaPáginas que muestran descripciones cortas de objetivos redireccionados
  • Geoestadística – Subdivisión de estadísticas centradas en conjuntos de datos espaciales
  • Reconocimiento de escritura – Capacidad de un ordenador para recibir e interpretar entrada manuscrito inteligible
  • Motores de búsqueda de Internet
  • Clasificación de las microarrayas
  • Reconocimiento de patrones – Reconocimiento automatizado de patrones y regularidades en datos
  • Sistema de recomendación – Sistema de filtración de información para predecir las preferencias de los usuarios
  • Reconocimiento del discurso – Conversión automática del lenguaje hablado en texto
  • Tratamiento estadístico del lenguaje natural – Campo de la lingüística y la informáticaPáginas que muestran descripciones cortas de objetivos redireccionados
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save