Proceso estándar entre industrias para la minería de datos

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Modelo de proceso estándar abierto

El proceso estándar intersectorial para la minería de datos, conocido como CRISP-DM, es un modelo de proceso estándar abierto que describe enfoques comunes utilizados por los expertos en minería de datos. Es el modelo analítico más utilizado.

En 2015, IBM lanzó una nueva metodología llamada Método unificado de soluciones analíticas para minería de datos/análisis predictivo (también conocido como ASUM-DM), que refina y amplía CRISP-DM.

Historia

CRISP-DM se concibió en 1996 y se convirtió en un proyecto de la Unión Europea bajo la iniciativa de financiación ESPRIT en 1997. El proyecto fue dirigido por cinco empresas: Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation y OHRA. una compañía de seguros.

Este consorcio principal aportó diferentes experiencias al proyecto. ISL, posteriormente fue adquirida y fusionada con SPSS. El gigante informático NCR Corporation produjo el almacén de datos Teradata y su propio software de minería de datos. Daimler-Benz contaba con un importante equipo de extracción de datos. La OHRA estaba empezando a explorar el uso potencial de la minería de datos.

La primera versión de la metodología se presentó en el 4º Taller CRISP-DM SIG en Bruselas en marzo de 1999 y se publicó como una guía de extracción de datos paso a paso ese mismo año.

Entre 2006 y 2008, se formó un SIG CRISP-DM 2.0 y hubo discusiones sobre la actualización del modelo de proceso CRISP-DM. Se desconoce el estado actual de estos esfuerzos. Sin embargo, el sitio web original crisp-dm.org citado en las revisiones y el sitio web CRISP-DM 2.0 SIG ya no están activos.

Si bien muchos profesionales de minería de datos que no pertenecen a IBM utilizan CRISP-DM, IBM es la principal corporación que actualmente utiliza el modelo de proceso CRISP-DM. Hace que algunos de los documentos CRISP-DM antiguos estén disponibles para su descarga y los ha incorporado en su producto SPSS Modeler.

Según la investigación actual, CRISP-DM es la forma más utilizada de modelo de minería de datos debido a sus diversas ventajas que resolvieron los problemas existentes en las industrias de minería de datos. Algunos de los inconvenientes de este modelo es que no realiza actividades de gestión de proyectos. El éxito de CRISP-DM se puede atribuir en gran medida al hecho de que es neutral en la industria, las herramientas y las aplicaciones.

Fases principales

Diagrama de proceso que muestra la relación entre las diferentes fases de CRISP-DM

CRISP-DM divide el proceso de extracción de datos en seis fases principales:

  • Comprensión de las empresas
  • Entendimiento de datos
  • Preparación de datos
  • Modelado
  • Evaluación
  • Despliegue

La secuencia de las fases no es estricta y normalmente es necesario avanzar y retroceder entre las diferentes fases. Las flechas en el diagrama del proceso indican las dependencias más importantes y frecuentes entre fases. El círculo exterior del diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continúa después de que se ha implementado una solución. Las lecciones aprendidas durante el proceso pueden desencadenar nuevas preguntas comerciales, a menudo más específicas, y los procesos posteriores de extracción de datos se beneficiarán de las experiencias de los anteriores.

Encuestas y marcos de procesos alternativos

Las encuestas realizadas en el mismo sitio web (KDNuggets) en 2002, 2004, 2007 y 2014 muestran que fue la metodología líder utilizada por los mineros de datos de la industria la que decidió responder a la encuesta. El único otro enfoque de minería de datos mencionado en estas encuestas fue SEMMA. Sin embargo, SAS Institute establece claramente que SEMMA no es una metodología de minería de datos, sino más bien una "organización lógica del conjunto de herramientas funcionales de SAS Enterprise Miner". Una revisión y crítica de los modelos de procesos de minería de datos realizada en 2009 calificó a CRISP-DM como el "estándar de facto para desarrollar proyectos de minería de datos y descubrimiento de conocimientos". Otras revisiones de CRISP-DM y modelos de procesos de minería de datos incluyen la revisión de 2006 de Kurgan y Musilek, y la revisión de Azevedo y Santos de 2006. Comparación de 2008 de CRISP-DM y SEMMA. Los esfuerzos para actualizar la metodología comenzaron en 2006, pero hasta junio de 2015 no han conducido a una nueva versión, y el "Grupo de Interés Especial" (SIG) responsable junto con el sitio web hace tiempo que desapareció (ver Historia de CRISP-DM).

En 2024, Harvard Business Review publicó un marco actualizado, bizML, que está diseñado para una mayor relevancia para el personal empresarial y para ser específico para proyectos de aprendizaje automático en particular, en lugar de proyectos de análisis, ciencia de datos o minería de datos en general. .

Contenido relacionado

Tabla de métodos virtuales

En programación informática, una tabla de métodos virtuales una tabla de funciones virtuales, una tabla de llamadas virtuales , tabla de despacho, vtable o...

ALGOL Y

ALGOL Y fue el nombre dado a un sucesor especulado del lenguaje de programación ALGOL 60 que incorporaba algunas características radicales que fueron...

Hacer bucle while

En muchos lenguajes de programación de computadoras, un bucle do while es una declaración de flujo de control que ejecuta un bloque de código y luego...

API de repositorio de contenido para Java

API de repositorio de contenido para Java es una especificación para una interfaz de programación de aplicaciones de la plataforma Java para acceder a...

Datosflex

DataFlex es un lenguaje de programación de alto nivel orientado a objetos y una herramienta visual de cuarta generación para desarrollar aplicaciones de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save