Minería de datos

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

La minería de datos es un proceso de extracción y descubrimiento de patrones en grandes conjuntos de datos que involucra métodos en la intersección del aprendizaje automático, las estadísticas y los sistemas de bases de datos. La minería de datos es un subcampo interdisciplinario de la informática y las estadísticas con el objetivo general de extraer información (con métodos inteligentes) de un conjunto de datos y transformar la información en una estructura comprensible para su uso posterior. La minería de datos es el paso de análisis del proceso de "descubrimiento de conocimiento en bases de datos", o KDD. Además del paso de análisis sin procesar, también involucra aspectos de administración de datos y bases de datos, procesamiento previo de datos, consideraciones de modelo e inferencia, métricas de interés, consideraciones de complejidad, procesamiento posterior de estructuras descubiertas, visualización y actualización en línea.

El término "minería de datos" es inapropiado porque el objetivo es la extracción de patrones y conocimiento de grandes cantidades de datos, no la extracción (minería) de datos en sí. También es una palabra de moda y se aplica con frecuencia a cualquier forma de procesamiento de información o datos a gran escala (recopilación, extracción, almacenamiento, análisis y estadísticas), así como a cualquier aplicación de sistema informático de soporte de decisiones, incluida la inteligencia artificial (p. aprendizaje) e inteligencia de negocios. El libro Minería de datos: herramientas y técnicas prácticas de aprendizaje automático con Java (que cubre principalmente material de aprendizaje automático) originalmente se llamaría simplemente Aprendizaje práctico de máquinas y el término minería de datossolo se agregó por razones de marketing. A menudo, los términos más generales (a gran escala) análisis y análisis de datos, o, cuando se refieren a métodos reales, inteligencia artificial y aprendizaje automático, son más apropiados.

La tarea real de minería de datos es el análisis semiautomático o automático de grandes cantidades de datos para extraer patrones interesantes previamente desconocidos, como grupos de registros de datos (análisis de conglomerados), registros inusuales (detección de anomalías) y dependencias (minería de reglas de asociación, minería de patrones secuenciales). Esto generalmente implica el uso de técnicas de bases de datos como índices espaciales. Estos patrones se pueden ver como una especie de resumen de los datos de entrada y se pueden usar en análisis posteriores o, por ejemplo, en aprendizaje automático y análisis predictivo. Por ejemplo, el paso de extracción de datos podría identificar varios grupos en los datos, que luego se pueden usar para obtener resultados de predicción más precisos mediante un sistema de soporte de decisiones. Ni la recopilación de datos, la preparación de datos, ni la interpretación y el informe de resultados son parte del paso de extracción de datos,

La diferencia entre el análisis de datos y la minería de datos es que el análisis de datos se utiliza para probar modelos e hipótesis sobre el conjunto de datos, por ejemplo, analizar la eficacia de una campaña de marketing, independientemente de la cantidad de datos; por el contrario, la minería de datos utiliza modelos estadísticos y de aprendizaje automático para descubrir patrones clandestinos u ocultos en un gran volumen de datos.

Los términos relacionados dragado de datos, pesca de datos y espionaje de datos se refieren al uso de métodos de extracción de datos para muestrear partes de un conjunto de datos de población más grande que son (o pueden ser) demasiado pequeños para hacer inferencias estadísticas confiables sobre la validez de cualquier patrones descubiertos. Sin embargo, estos métodos se pueden utilizar para crear nuevas hipótesis para contrastarlas con poblaciones de datos más grandes.

Etimología

En la década de 1960, estadísticos y economistas utilizaron términos como pesca de datos o dragado de datos para referirse a lo que consideraban una mala práctica de analizar datos sin una hipótesis a priori. El economista Michael Lovell usó el término "minería de datos" de manera crítica similar en un artículo publicado en Review of Economic Studies en 1983. Lovell indica que la práctica "se disfraza bajo una variedad de alias, que van desde "experimentación" (positivo) a "pescando" o "husmeando" (negativo).

El término minería de datos apareció alrededor de 1990 en la comunidad de bases de datos, con connotaciones generalmente positivas. Durante un breve periodo de tiempo en la década de 1980, se utilizó la frase "minería de bases de datos"™, pero dado que HNC, una empresa con sede en San Diego, la registró como marca registrada, para promocionar su estación de trabajo de minería de bases de datos; en consecuencia, los investigadores recurrieron a la minería de datos. Otros términos utilizados incluyen arqueología de datos, recolección de información, descubrimiento de información, extracción de conocimiento., etc. Gregory Piatetsky-Shapiro acuñó el término "descubrimiento de conocimiento en bases de datos" para el primer taller sobre el mismo tema (KDD-1989) y este término se hizo más popular en la comunidad de inteligencia artificial y aprendizaje automático. Sin embargo, el término minería de datos se hizo más popular en las comunidades empresarial y de prensa. Actualmente, los términos minería de datos y descubrimiento de conocimiento se usan indistintamente.

En la comunidad académica, los principales foros de investigación comenzaron en 1995 cuando se inició la Primera Conferencia Internacional sobre Minería de Datos y Descubrimiento del Conocimiento (KDD-95) en Montreal bajo el patrocinio de AAAI. Fue copresidido por Usama Fayyad y Ramasamy Uthurusamy. Un año después, en 1996, Usama Fayyad lanzó la revista de Kluwer llamada Data Mining and Knowledge Discovery como su editor jefe fundador. Posteriormente inició el SIGKDD Newsletter SIGKDD Explorations. La conferencia KDD International se convirtió en la principal conferencia de mayor calidad en minería de datos con una tasa de aceptación de trabajos de investigación por debajo del 18 %. La revista Data Mining and Knowledge Discovery es la principal revista de investigación del campo.

Fondo

La extracción manual de patrones de datos ha ocurrido durante siglos. Los primeros métodos para identificar patrones en los datos incluyen el teorema de Bayes (1700) y el análisis de regresión (1800). La proliferación, la ubicuidad y el poder cada vez mayor de la tecnología informática han aumentado drásticamente la capacidad de recopilación, almacenamiento y manipulación de datos. A medida que los conjuntos de datos crecieron en tamaño y complejidad, el análisis de datos "práctico" directo se ha incrementado cada vez más con el procesamiento de datos automatizado e indirecto, con la ayuda de otros descubrimientos en informática, especialmente en el campo del aprendizaje automático, como las redes neuronales. análisis de conglomerados, algoritmos genéticos (década de 1950), árboles de decisión y reglas de decisión (década de 1960) y máquinas de vectores de soporte (década de 1990).en grandes conjuntos de datos. Cierra la brecha entre las estadísticas aplicadas y la inteligencia artificial (que generalmente brindan la base matemática) a la administración de bases de datos al explotar la forma en que los datos se almacenan e indexan en las bases de datos para ejecutar los algoritmos reales de aprendizaje y descubrimiento de manera más eficiente, lo que permite que dichos métodos se apliquen a conjuntos de datos cada vez más grandes.

Proceso

El proceso de descubrimiento de conocimiento en bases de datos (KDD) se define comúnmente con las etapas:

Selección
Preprocesamiento
Transformación
Procesamiento de datos
Interpretación/evaluación.

Sin embargo, existe en muchas variaciones sobre este tema, como el proceso estándar de la industria cruzada para la minería de datos (CRISP-DM) que define seis fases:

Comprensión empresarial
Comprensión de datos
Preparación de datos
Modelado
Evaluación
Despliegue

o un proceso simplificado como (1) Preprocesamiento, (2) Minería de datos y (3) Validación de resultados.

Las encuestas realizadas en 2002, 2004, 2007 y 2014 muestran que la metodología CRISP-DM es la metodología líder utilizada por los mineros de datos. El único otro estándar de minería de datos mencionado en estas encuestas fue SEMMA. Sin embargo, 3 o 4 veces más personas informaron usar CRISP-DM. Varios equipos de investigadores han publicado revisiones de modelos de procesos de minería de datos, y Azevedo y Santos realizaron una comparación de CRISP-DM y SEMMA en 2008.

Preprocesamiento

Antes de que se puedan usar los algoritmos de minería de datos, se debe ensamblar un conjunto de datos de destino. Como la minería de datos solo puede descubrir patrones realmente presentes en los datos, el conjunto de datos de destino debe ser lo suficientemente grande para contener estos patrones y al mismo tiempo ser lo suficientemente conciso para ser extraído dentro de un límite de tiempo aceptable. Una fuente común de datos es un data mart o almacén de datos. El procesamiento previo es esencial para analizar los conjuntos de datos multivariantes antes de la extracción de datos. A continuación, se limpia el conjunto de objetivos. La limpieza de datos elimina las observaciones que contienen ruido y aquellas a las que les faltan datos.

Procesamiento de datos

La minería de datos involucra seis clases comunes de tareas:

Detección de anomalías (detección de valores atípicos/cambios/desviaciones): la identificación de registros de datos inusuales, que pueden ser interesantes o errores de datos que requieren una mayor investigación.
Aprendizaje de reglas de asociación (modelado de dependencia): busca relaciones entre variables. Por ejemplo, un supermercado podría recopilar datos sobre los hábitos de compra de los clientes. Mediante el aprendizaje de reglas de asociación, el supermercado puede determinar qué productos se compran juntos con frecuencia y utilizar esta información con fines de marketing. Esto a veces se denomina análisis de la cesta de la compra.
Agrupamiento: es la tarea de descubrir grupos y estructuras en los datos que son de una forma u otra "similares", sin utilizar estructuras conocidas en los datos.
Clasificación: es la tarea de generalizar la estructura conocida para aplicarla a nuevos datos. Por ejemplo, un programa de correo electrónico podría intentar clasificar un correo electrónico como "legítimo" o como "correo no deseado".
Regresión: intenta encontrar una función que modele los datos con el menor error, es decir, para estimar las relaciones entre datos o conjuntos de datos.
Resumen: proporciona una representación más compacta del conjunto de datos, incluida la visualización y la generación de informes.

Validación de resultados

La minería de datos puede usarse indebidamente sin querer, produciendo resultados que parecen ser significativos pero que en realidad no predicen el comportamiento futuro y no pueden reproducirse en una nueva muestra de datos, lo que tiene poca utilidad. Esto a veces se debe a que se investigan demasiadas hipótesis y no se realizan las pruebas de hipótesis estadísticas adecuadas. Una versión simple de este problema en el aprendizaje automático se conoce como sobreajuste, pero el mismo problema puede surgir en diferentes fases del proceso y, por lo tanto, una división de entrenamiento/prueba, cuando corresponda, puede no ser suficiente para evitar que esto suceda.

El paso final del descubrimiento de conocimiento a partir de los datos es verificar que los patrones producidos por los algoritmos de minería de datos ocurren en el conjunto de datos más amplio. No todos los patrones encontrados por los algoritmos son necesariamente válidos. Es común que los algoritmos de minería de datos encuentren patrones en el conjunto de entrenamiento que no están presentes en el conjunto de datos general. Esto se llama sobreajuste. Para superar esto, la evaluación utiliza un conjunto de datos de prueba en el que no se entrenó el algoritmo de minería de datos. Los patrones aprendidos se aplican a este conjunto de prueba y la salida resultante se compara con la salida deseada. Por ejemplo, un algoritmo de minería de datos que intente distinguir el "spam" de los correos electrónicos "legítimos" se entrenaría en un conjunto de entrenamiento de correos electrónicos de muestra. Una vez entrenado,sido entrenado. La precisión de los patrones se puede medir a partir de cuántos correos electrónicos clasifican correctamente. Se pueden utilizar varios métodos estadísticos para evaluar el algoritmo, como las curvas ROC.

Si los patrones aprendidos no cumplen con los estándares deseados, es necesario volver a evaluar y cambiar los pasos de procesamiento previo y extracción de datos. Si los patrones aprendidos cumplen con los estándares deseados, entonces el paso final es interpretar los patrones aprendidos y convertirlos en conocimiento.

Investigar

El principal organismo profesional en el campo es el Grupo de Interés Especial (SIG) de la Asociación para la Maquinaria de Computación (ACM) sobre Descubrimiento de Conocimiento y Minería de Datos (SIGKDD). Desde 1989, este ACM SIG ha organizado una conferencia internacional anual y ha publicado sus actas, y desde 1999 ha publicado una revista académica semestral titulada "SIGKDD Explorations".

Las conferencias informáticas sobre minería de datos incluyen:

Conferencia CIKM – Conferencia ACM sobre Gestión de la Información y el Conocimiento
Conferencia Europea sobre Aprendizaje Automático y Principios y Práctica del Descubrimiento de Conocimiento en Bases de Datos
Conferencia KDD – Conferencia ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos

Los temas de minería de datos también están presentes en muchas conferencias sobre gestión de datos/bases de datos, como la Conferencia ICDE, la Conferencia SIGMOD y la Conferencia internacional sobre bases de datos muy grandes.

Estándares

Ha habido algunos esfuerzos para definir estándares para el proceso de minería de datos, por ejemplo, el Proceso estándar europeo de la industria cruzada para la minería de datos (CRISP-DM 1.0) de 1999 y el estándar de minería de datos Java de 2004 (JDM 1.0). El desarrollo de los sucesores de estos procesos (CRISP-DM 2.0 y JDM 2.0) estuvo activo en 2006 pero se ha estancado desde entonces. JDM 2.0 se retiró sin llegar a un borrador final.

Para intercambiar los modelos extraídos, en particular para su uso en análisis predictivos, el estándar clave es el lenguaje de marcado de modelos predictivos (PMML), que es un lenguaje basado en XML desarrollado por Data Mining Group (DMG) y admitido como formato de intercambio por muchos. aplicaciones de minería de datos. Como sugiere el nombre, solo cubre modelos de predicción, una tarea particular de minería de datos de gran importancia para las aplicaciones comerciales. Sin embargo, se han propuesto extensiones para cubrir (por ejemplo) el agrupamiento subespacial independientemente del DMG.

Usos notables

La minería de datos se utiliza dondequiera que haya datos digitales disponibles en la actualidad. Se pueden encontrar ejemplos notables de minería de datos en los negocios, la medicina, la ciencia y la vigilancia.

Preocupaciones de privacidad y ética

Si bien el término "extracción de datos" en sí puede no tener implicaciones éticas, a menudo se asocia con la extracción de información en relación con el comportamiento del usuario (ético y de otro tipo).

Las formas en que se puede usar la minería de datos pueden, en algunos casos y contextos, plantear preguntas con respecto a la privacidad, la legalidad y la ética. En particular, la extracción de datos de conjuntos de datos gubernamentales o comerciales con fines de seguridad nacional o aplicación de la ley, como en el Programa de conocimiento total de la información o en ADVISE, ha planteado preocupaciones sobre la privacidad.

La minería de datos requiere la preparación de datos que descubren información o patrones que comprometen las obligaciones de confidencialidad y privacidad. Una forma común de que esto ocurra es a través de la agregación de datos. La agregación de datos implica la combinación de datos (posiblemente de varias fuentes) de una manera que facilite el análisis (pero que también podría hacer que la identificación de datos privados a nivel individual sea deducible o aparente). Esto no es minería de datos per se, sino el resultado de la preparación de datos antes y para los fines del análisis. La amenaza a la privacidad de un individuo entra en juego cuando los datos, una vez compilados, hacen que el minero de datos, o cualquiera que tenga acceso al conjunto de datos recién compilados, pueda identificar a individuos específicos, especialmente cuando los datos originalmente eran anónimos.

Se recomienda tener en cuenta lo siguiente antes de recopilar datos:

El propósito de la recopilación de datos y cualquier proyecto de extracción de datos (conocido);
Cómo se utilizarán los datos;
Quién podrá extraer los datos y utilizar los datos y sus derivados;
El estado de seguridad que rodea el acceso a los datos;
Cómo se pueden actualizar los datos recopilados.

Los datos también pueden modificarse para volverse anónimos, de modo que las personas no puedan identificarse fácilmente. Sin embargo, incluso los conjuntos de datos "anonimizados" pueden contener información suficiente para permitir la identificación de personas, como ocurrió cuando los periodistas pudieron encontrar a varias personas en función de un conjunto de historiales de búsqueda que AOL publicó inadvertidamente.

La revelación inadvertida de información de identificación personal que conduzca al proveedor viola las Prácticas Justas de Información. Esta indiscreción puede causar daños financieros, emocionales o físicos a la persona indicada. En un caso de violación de la privacidad, los patrocinadores de Walgreens presentaron una demanda contra la empresa en 2011 por vender información de recetas a empresas de extracción de datos que, a su vez, proporcionaron los datos a empresas farmacéuticas.

Situación en Europa

Europa tiene leyes de privacidad bastante estrictas y se están realizando esfuerzos para fortalecer aún más los derechos de los consumidores. Sin embargo, los Principios de puerto seguro de EE. UU. y la UE, desarrollados entre 1998 y 2000, actualmente exponen a los usuarios europeos a la explotación de la privacidad por parte de empresas estadounidenses. Como consecuencia de la divulgación de la vigilancia global de Edward Snowden, ha aumentado la discusión para revocar este acuerdo, ya que en particular los datos estarán completamente expuestos a la Agencia de Seguridad Nacional, y los intentos de llegar a un acuerdo con los Estados Unidos han fracasado.

En el Reino Unido, en particular, ha habido casos de corporaciones que utilizan la minería de datos como una forma de dirigirse a ciertos grupos de clientes obligándolos a pagar precios injustamente altos. Estos grupos tienden a ser personas de nivel socioeconómico más bajo que no conocen las formas en que pueden ser explotados en los mercados digitales.

Situación en los Estados Unidos

En los Estados Unidos, el Congreso de los EE. UU. ha abordado las preocupaciones sobre la privacidad a través de la aprobación de controles regulatorios como la Ley de Portabilidad y Responsabilidad de los Seguros Médicos (HIPAA). La HIPAA requiere que las personas den su "consentimiento informado" con respecto a la información que brindan y sus usos presentes y futuros previstos. Según un artículo de Biotech Business Week, "'[e]n la práctica, es posible que HIPAA no ofrezca mayor protección que las reglamentaciones de larga data en el ámbito de la investigación', dice la AAHC. Más importante aún, el objetivo de protección de la regla a través del consentimiento informado es acercarse a un nivel de incomprensibilidad para los individuos promedio". Esto subraya la necesidad del anonimato de los datos en las prácticas de agregación y minería de datos.

La legislación de privacidad de la información de EE. UU., como HIPAA y la Ley de privacidad y derechos educativos de la familia (FERPA), se aplica solo a las áreas específicas que aborda cada ley. El uso de la minería de datos por parte de la mayoría de las empresas en los EE. UU. no está controlado por ninguna legislación.

Ley de derechos de autor

Situación en Europa

Según las leyes europeas de derechos de autor y bases de datos, la minería de obras protegidas por derechos de autor (como la minería web) sin el permiso del propietario de los derechos de autor no es legal. Cuando una base de datos son datos puros en Europa, puede ser que no haya derechos de autor, pero los derechos de la base de datos pueden existir, por lo que la extracción de datos queda sujeta a los derechos de propiedad intelectual de los propietarios que están protegidos por la Directiva de bases de datos. Siguiendo la recomendación de la revisión de Hargreaves, esto llevó al gobierno del Reino Unido a enmendar su ley de derechos de autor en 2014 para permitir la extracción de contenido como una limitación y excepción.El Reino Unido fue el segundo país del mundo en hacerlo después de Japón, que introdujo una excepción en 2009 para la minería de datos. Sin embargo, debido a la restricción de la Directiva de la Sociedad de la Información (2001), la excepción del Reino Unido solo permite la extracción de contenido con fines no comerciales. La ley de derechos de autor del Reino Unido tampoco permite que esta disposición sea anulada por términos y condiciones contractuales. Desde 2020 también Suiza ha estado regulando la minería de datos al permitirla en el campo de la investigación bajo ciertas condiciones establecidas por el art. 24d de la Ley de derechos de autor de Suiza. Este nuevo artículo entró en vigor el 1 de abril de 2020.

La Comisión Europea facilitó el debate de las partes interesadas sobre la extracción de texto y datos en 2013, bajo el título de Licencias para Europa. El enfoque en la solución a este problema legal, como la concesión de licencias en lugar de limitaciones y excepciones, llevó a representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo de 2013.

Situación en los Estados Unidos

La ley de derechos de autor de EE. UU., y en particular su disposición para el uso justo, defiende la legalidad de la extracción de contenido en Estados Unidos y otros países de uso justo, como Israel, Taiwán y Corea del Sur. Dado que la minería de contenido es transformadora, es decir, no suplanta el trabajo original, se considera legal bajo el uso legítimo. Por ejemplo, como parte del acuerdo de Google Book, el juez que preside el caso dictaminó que el proyecto de digitalización de libros con derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización, uno de los cuales era la minería de datos y texto.

Software

Aplicaciones y software de minería de datos de código abierto gratuitos

Las siguientes aplicaciones están disponibles bajo licencias gratuitas/de código abierto. El acceso público al código fuente de la aplicación también está disponible.

Carrot2: marco de agrupación de texto y resultados de búsqueda.
Chemicalize.org: un motor de búsqueda web y minero de estructuras químicas.
ELKI: Un proyecto de investigación universitario con análisis de conglomerados avanzados y métodos de detección de valores atípicos escritos en el lenguaje Java.
GATE: una herramienta de procesamiento de lenguaje natural e ingeniería del lenguaje.
KNIME: The Konstanz Information Miner, un marco de análisis de datos completo y fácil de usar.
Análisis masivo en línea (MOA): una extracción de grandes flujos de datos en tiempo real con una herramienta de deriva de conceptos en el lenguaje de programación Java.
MEPX: herramienta multiplataforma para problemas de regresión y clasificación basada en una variante de Programación Genética.
mlpack: una colección de algoritmos de aprendizaje automático listos para usar escritos en lenguaje C++.
NLTK (Natural Language Toolkit): un conjunto de bibliotecas y programas para el procesamiento simbólico y estadístico del lenguaje natural (NLP) para el lenguaje Python.
OpenNN: biblioteca abierta de redes neuronales.
Orange: un paquete de software de aprendizaje automático y minería de datos basado en componentes escrito en el lenguaje Python.
PSPP: software de minería de datos y estadísticas bajo el Proyecto GNU similar a SPSS
R: un lenguaje de programación y un entorno de software para computación estadística, minería de datos y gráficos. Es parte del Proyecto GNU.
Scikit-learn: una biblioteca de aprendizaje automático de código abierto para el lenguaje de programación Python
Torch: una biblioteca de aprendizaje profundo de código abierto para el lenguaje de programación Lua y el marco de computación científica con amplio soporte para algoritmos de aprendizaje automático.
UIMA: UIMA (Arquitectura de gestión de información no estructurada) es un marco de componentes para analizar contenido no estructurado, como texto, audio y video, desarrollado originalmente por IBM.
Weka: un conjunto de aplicaciones de software de aprendizaje automático escritas en el lenguaje de programación Java.

Software y aplicaciones patentadas de minería de datos

Las siguientes aplicaciones están disponibles bajo licencias propietarias.

Angoss KnowledgeSTUDIO: herramienta de minería de datos
LIONsolver: una aplicación de software integrada para minería de datos, inteligencia empresarial y modelado que implementa el enfoque de aprendizaje y optimización inteligente (LION).
PolyAnalyst: software de minería de datos y texto de Megaputer Intelligence.
Microsoft Analysis Services: software de minería de datos proporcionado por Microsoft.
NetOwl: conjunto de productos de análisis de entidades y texto multilingüe que permiten la extracción de datos.
Oracle Data Mining: software de minería de datos de Oracle Corporation.
PSeven: plataforma de automatización de simulación y análisis de ingeniería, optimización multidisciplinar y minería de datos proporcionada por DATADVANCE.
Qlucore Omics Explorer: software de minería de datos.
RapidMiner: un entorno para experimentos de aprendizaje automático y minería de datos.
SAS Enterprise Miner: software de minería de datos proporcionado por el Instituto SAS.
SPSS Modeler: software de minería de datos proporcionado por IBM.
STATISTICA Data Miner: software de minería de datos proporcionado por StatSoft.
Tanagra: software de minería de datos orientado a la visualización, también para la enseñanza.
Vertica: software de minería de datos proporcionado por Hewlett-Packard.
Google Cloud Platform: modelos de ML personalizados automatizados administrados por Google.
Amazon SageMaker: servicio administrado proporcionado por Amazon para crear y producir modelos de aprendizaje automático personalizados.

Contenido relacionado

Más resultados...