Naranja (software)

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Software de análisis de datos de código abierto
A typical workflow in Orange.
Un típico flujo de trabajo en Orange 3.

Orange es un conjunto de herramientas de visualización de datos, aprendizaje automático y minería de datos de código abierto. Cuenta con una interfaz de programación visual para análisis exploratorio de datos cualitativos y visualización interactiva de datos.

Clasificación Árbol widget en Naranja 3.

Descripción

Orange es un paquete de software de programación visual basado en componentes para visualización de datos, aprendizaje automático, minería de datos y análisis de datos.

Los componentes naranjas se denominan widgets. Van desde la simple visualización de datos, la selección de subconjuntos y el preprocesamiento hasta la evaluación empírica de algoritmos de aprendizaje. y modelado predictivo.

La programación visual se implementa a través de una interfaz en la que se crean flujos de trabajo vinculando widgets predefinidos o diseñados por el usuario, mientras que los usuarios avanzados pueden utilizar Orange como biblioteca Python para la manipulación de datos y la alteración del widget.

Software

Orange es un paquete de software de código abierto publicado bajo GPL y alojado en GitHub. Las versiones hasta la 3.0 incluyen componentes principales en C++ con contenedores en Python. Desde la versión 3.0 en adelante, Orange utiliza bibliotecas comunes de código abierto de Python para informática científica, como numpy, scipy y scikit-learn, mientras que su interfaz gráfica de usuario opera dentro del marco Qt multiplataforma.

La instalación predeterminada incluye una serie de algoritmos de aprendizaje automático, preprocesamiento y visualización de datos en 6 conjuntos de widgets (datos, transformación, visualización, modelado, evaluación y sin supervisión). Hay funcionalidades adicionales disponibles como complementos (minería de textos, análisis de imágenes, bioinformática, etc.).

Orange es compatible con macOS, Windows y Linux y también se puede instalar desde el repositorio de índice de paquetes de Python (pip install Orange3).

Características

Orange consta de una interfaz de lienzo en la que el usuario coloca widgets y crea un flujo de trabajo de análisis de datos. Los widgets ofrecen funcionalidades básicas como leer datos, mostrar una tabla de datos, seleccionar funciones, entrenar predictores, comparar algoritmos de aprendizaje, visualizar elementos de datos, etc. El usuario puede explorar visualizaciones de forma interactiva o alimentar el subconjunto seleccionado en otros widgets.

A decorated dendrogram in Orange 3
Un dendrograma decorado en Orange 3.
  • Canvas: front-end gráfico para el análisis de datos
  • Widgets:
    • Datos: widgets para la entrada de datos, filtración de datos, muestreo, imputación, manipulación de características y selección de características
    • Visualize: widgets para la visualización común (imagen de caja, histogramas, trama de dispersión) y visualización multivariada (imagen mística, diagrama de sieve).
    • Clasificar: un conjunto de algoritmos de aprendizaje automático supervisados para la clasificación
    • Regreso: un conjunto de algoritmos de aprendizaje automático supervisados para la regresión
    • Evaluate: validación cruzada, procedimientos basados en muestreo, estimación de fiabilidad y puntuación de métodos de predicción
    • Sin supervisión: algoritmos de aprendizaje no supervisados para agrupar (k-medios, agrupación jerárquica) y técnicas de proyección de datos (escalamiento multidimensional, análisis de componentes principales, análisis de correspondencia).


Complementos

Los usuarios de Orange pueden ampliar su conjunto principal de componentes con componentes de los complementos. Los complementos compatibles incluyen:

  • Associate: componentes para la minería de artículos frecuentes y el aprendizaje de reglas de asociación.
  • Bioinformática: componentes para análisis de expresión genética, enriquecimiento y acceso a bases de datos de expresión (por ejemplo, Gene Expression Omnibus) y bibliotecas de vías.
  • fusión de datos: componentes para fusionar diferentes conjuntos de datos, factorización de matriz colectiva y exploración de factores latentes.
  • Educación: componentes para enseñar conceptos de aprendizaje automático, tales como k-medios agrupación, regresión polinomio, descenso gradiente estocástico,...
  • Explique: proporciona una extensión con componentes para la explicación modelo, incluyendo el análisis de valor de Shapley
  • Geo: componentes para trabajar con datos geoespaciales.
  • Análisis de imagen: componentes para trabajar con imágenes e incrustaciones de ImageNet
  • Red: componentes para el análisis de gráficos y redes.
  • Minería de textos: componentes para el procesamiento del lenguaje natural y la extracción de texto.
  • Series temporales: componentes de widget para el análisis y modelado de series temporales.
  • célula única: soporte para análisis de expresión de genes de células individuales, incluyendo componentes para la carga de datos de células individuales, filtración y eliminación de efectos de lotes, descubrimiento de genes marcadores, puntuación de células y genes, y predicción de tipo celular.
    Parcela Kaplan-Meier de Survival Análisis de datos traza curvas de supervivencia y apoya la selección interactiva de casos.
  • Espectroscopia: componentes para el análisis y visualización de conjuntos de datos (hiper)spectral.
  • Análisis de la supervivencia: add-on para el análisis de datos sobre datos de supervivencia. Incluye widgets para técnicas de análisis de supervivencia estándar, como el diagrama Kaplan-Meier, el modelo de regresión Cox y varios widgets derivados.
  • La felicidad mundial: apoyo para la descarga de datos socioeconómicos de una base de datos, incluidos los indicadores de la OCDE y el Desarrollo Mundial. Proporciona acceso a miles de indicadores de países de diversas bases de datos económicas.


Objetivos

El programa proporciona una plataforma para la selección de experimentos, sistemas de recomendación y modelos predictivos y se utiliza en biomedicina, bioinformática, investigación genómica y enseñanza. En ciencia, se utiliza como plataforma para probar nuevos algoritmos de aprendizaje automático y para implementar nuevas técnicas en genética y bioinformática. En educación, se utilizó para enseñar métodos de aprendizaje automático y minería de datos a estudiantes de biología, biomedicina e informática.

Extensiones

Varios proyectos se basan en Orange, ya sea ampliando los componentes principales con complementos o utilizando solo Orange Canvas para explotar las funciones de programación visual y GUI implementadas.

  • OEA - ORange SYnchrotron Suite
  • scOrange — bioestadística de células únicas
  • Quasar — análisis de datos en ciencias naturales

Historia

En 1996, la Universidad de Ljubljana y el Instituto Jožef Stefan comenzaron el desarrollo de ML*, un marco de aprendizaje automático en C++, y en 1997 se desarrollaron enlaces de Python para este marco, que, junto con los módulos emergentes de Python, formaron un marco conjunto. llamado naranja. Durante los años siguientes, la mayoría de los principales algoritmos contemporáneos para la minería de datos y el aprendizaje automático se implementaron en módulos C++ (núcleo de Orange) o Python.

  • En 2002, los primeros prototipos para crear una interfaz gráfica de usuario flexible fueron diseñados usando megawidgets Pmw Python.
  • En 2003, la interfaz gráfica de usuario fue rediseñada y redesarrollada para el marco Qt utilizando los enlaces PyQt Python. Se definió el marco de programación visual y se inició el desarrollo de widgets (compuestos gráficos del análisis de datos).
  • En 2005 se crearon extensiones para el análisis de datos en bioinformática.
  • En 2008 se desarrollaron paquetes de instalación basados en Mac OS X DMG y Fink.
  • En 2009, se crearon y mantuvieron más de 100 widgets.
  • Desde 2009, Orange está en 2.0 beta, y el sitio web ofrece paquetes de instalación basados en el ciclo de compilación diario.
  • En 2012, se impuso una nueva jerarquía de objetos, reemplazando la vieja estructura basada en módulos.
  • En 2013, un rediseño significativo de la interfaz gráfica de usuario incluyó una nueva caja de herramientas y la representación de los flujos de trabajo.
  • En 2015, Orange 3.0 fue liberado. Orange almacena los datos en los arrays de NumPy; algoritmos de aprendizaje automático utilizan principalmente scikit-learn.
  • En 2015, se publicó un complemento de análisis de texto para Orange3.
  • En 2016, Orange está en la versión 3.3. El desarrollo utiliza un ciclo mensual de liberación estable.
  • In 2016, Start of development and release of Image Analytics add-on, with server-site deep neural networks for image embedding
  • En 2017 se introdujo el complemento de espectroscopia para el análisis de datos espectrales.
  • En 2017, Geo, se introdujo un add-on para tratar datos de geoubicación y visualización de mapas geométricos
  • En 2018 se inició el desarrollo y la liberación de add-on para el análisis de datos de células individuales.
  • En 2019, la interfaz gráfica de Orange se desarrolla como un proyecto separado, naranja-canvas-core
  • En 2020, Explicar complemento con widgets para explicar la clasificación o modelo de regresión se introduce. Explica qué características contribuyen más y cómo contribuyen a predecir una clase específica.
  • En 2022 World Happiness, se introduce un complemento para la suite de extracción de datos Orange3. Proporciona widgets para acceder a datos socioeconómicos de varias bases de datos como World Happiness Report, World Development Indicators, OCDE.
  • En 2022, Explicar add-on se extiende con un diagrama de expectativa condicional individual y la técnica de importancia de la característica de permutación.

Contenido relacionado

Spl (Unix)

spl es el nombre de una colección de rutinas o macros del kernel de Unix utilizadas. para cambiar el nivel de prioridad de interrupción. Históricamente...

Tabla de métodos virtuales

En programación informática, una tabla de métodos virtuales una tabla de funciones virtuales, una tabla de llamadas virtuales , tabla de despacho, vtable o...

ALGOL Y

ALGOL Y fue el nombre dado a un sucesor especulado del lenguaje de programación ALGOL 60 que incorporaba algunas características radicales que fueron...

Hacer bucle while

En muchos lenguajes de programación de computadoras, un bucle do while es una declaración de flujo de control que ejecuta un bloque de código y luego...

Datosflex

DataFlex es un lenguaje de programación de alto nivel orientado a objetos y una herramienta visual de cuarta generación para desarrollar aplicaciones de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save