Visualización de datos
La visualización de datos e información (data viz o info viz) es un campo interdisciplinario que se ocupa de la representación gráfica de datos e información. Es una forma de comunicación especialmente eficaz cuando los datos o la información son numerosos, como por ejemplo una serie temporal.
También es el estudio de representaciones visuales de datos abstractos para reforzar la cognición humana. Los datos abstractos incluyen tanto datos numéricos como no numéricos, como texto e información geográfica. Está relacionado con la infografía y la visualización científica. Una distinción es que es visualización de información cuando se elige la representación espacial (por ejemplo, el diseño de página de un diseño gráfico), mientras que es visualización científica cuando se da la representación espacial.
Desde un punto de vista académico, esta representación se puede considerar como un mapeo entre los datos originales (generalmente numéricos) y los elementos gráficos (por ejemplo, líneas o puntos en un gráfico). El mapeo determina cómo varían los atributos de estos elementos según los datos. Bajo esta luz, un gráfico de barras es un mapeo de la longitud de una barra a una magnitud de una variable. Dado que el diseño gráfico del mapeo puede afectar negativamente la legibilidad de un gráfico, el mapeo es una competencia central de la visualización de datos.
La visualización de datos e información tiene sus raíces en el campo de la estadística y, por lo tanto, generalmente se considera una rama de la estadística descriptiva. Sin embargo, debido a que tanto las habilidades de diseño como las habilidades estadísticas y de computación son necesarias para visualizar de manera efectiva, autores como Gershon y Page argumentan que es tanto un arte como una ciencia.
La investigación sobre cómo las personas leen y malinterpretan varios tipos de visualizaciones está ayudando a determinar qué tipos y características de visualizaciones son más comprensibles y efectivas para transmitir información.
Visión general
El campo de la visualización de datos e información ha surgido "a partir de la investigación en interacción humano-computadora, ciencias de la computación, gráficos, diseño visual, psicología y métodos comerciales. Se aplica cada vez más como un componente crítico en la investigación científica, bibliotecas digitales, minería de datos, análisis de datos financieros, estudios de mercado, control de la producción manufacturera y descubrimiento de fármacos".
La visualización de datos e información supone que "las representaciones visuales y las técnicas de interacción aprovechan la vía de ancho de banda amplio del ojo humano hacia la mente para permitir que los usuarios vean, exploren y comprendan grandes cantidades de información a la vez. La visualización de información se centró en la creación de enfoques para transmitir información abstracta de manera intuitiva".
El análisis de datos es una parte indispensable de toda investigación aplicada y resolución de problemas en la industria. Los enfoques de análisis de datos más fundamentales son la visualización (histogramas, diagramas de dispersión, diagramas de superficie, mapas de árboles, diagramas de coordenadas paralelas, etc.), estadística (prueba de hipótesis, regresión, PCA, etc.), minería de datos (minería de asociación, etc.) y métodos de aprendizaje automático (agrupación, clasificación, árboles de decisión, etc.). Entre estos enfoques, la visualización de información o el análisis de datos visuales es el que más depende de las habilidades cognitivas de los analistas humanos y permite el descubrimiento de conocimientos prácticos no estructurados que están limitados solo por la imaginación y la creatividad humanas. El analista no tiene que aprender ningún método sofisticado para poder interpretar las visualizaciones de los datos.
Para comunicar información de manera clara y eficiente, la visualización de datos utiliza gráficos estadísticos, diagramas, gráficos de información y otras herramientas. Los datos numéricos se pueden codificar mediante puntos, líneas o barras para comunicar visualmente un mensaje cuantitativo. La visualización eficaz ayuda a los usuarios a analizar y razonar sobre los datos y las pruebas. Hace que los datos complejos sean más accesibles, comprensibles y utilizables, pero también puede ser reductivo.Los usuarios pueden tener tareas analíticas particulares, como hacer comparaciones o comprender la causalidad, y el principio de diseño del gráfico (es decir, mostrar comparaciones o mostrar causalidad) sigue a la tarea. Las tablas generalmente se usan donde los usuarios buscarán una medida específica, mientras que los gráficos de varios tipos se usan para mostrar patrones o relaciones en los datos para una o más variables.
La visualización de datos se refiere a las técnicas utilizadas para comunicar datos o información codificándolos como objetos visuales (p. ej., puntos, líneas o barras) contenidos en gráficos. El objetivo es comunicar información clara y eficientemente a los usuarios. Es uno de los pasos en el análisis de datos o ciencia de datos. Según Vitaly Friedman (2008), el "objetivo principal de la visualización de datos es comunicar información de manera clara y eficaz a través de medios gráficos. No significa que la visualización de datos deba parecer aburrida para ser funcional o extremadamente sofisticada para verse hermosa. Para transmitir ideas efectivamente, tanto la forma estética como la funcionalidad deben ir de la mano, brindando información sobre un conjunto de datos bastante escaso y complejo al comunicar sus aspectos clave de una manera más intuitiva.
De hecho, Fernanda Viegas y Martin M. Wattenberg sugirieron que una visualización ideal no solo debería comunicar con claridad, sino también estimular la participación y la atención del espectador.
La visualización de datos está estrechamente relacionada con los gráficos de información, la visualización de información, la visualización científica, el análisis exploratorio de datos y los gráficos estadísticos. En el nuevo milenio, la visualización de datos se ha convertido en un área activa de investigación, enseñanza y desarrollo. Según Post et al. (2002), ha unido la visualización científica y la de información.
En el entorno comercial, la visualización de datos a menudo se denomina tableros. Las infografías son otra forma muy común de visualización de datos.
Principios
Características de las pantallas gráficas efectivas
El mayor valor de una imagen es cuando nos obliga a notar lo que nunca esperábamos ver.
Juan Tukey
Edward Tufte ha explicado que los usuarios de pantallas de información ejecutan tareas analíticas particulares, como hacer comparaciones. El principio de diseño del gráfico de información debe apoyar la tarea analítica. Como muestran William Cleveland y Robert McGill, diferentes elementos gráficos logran esto de manera más o menos efectiva. Por ejemplo, los diagramas de puntos y los gráficos de barras superan a los gráficos circulares.
En su libro de 1983 The Visual Display of Quantitative Information, Edward Tufte define las 'presentaciones gráficas' y los principios para una presentación gráfica efectiva en el siguiente pasaje: "La excelencia en gráficos estadísticos consiste en ideas complejas comunicadas con claridad, precisión y eficiencia. Las presentaciones gráficas deben:
- mostrar los datos
- inducir al espectador a pensar en la sustancia en lugar de en la metodología, el diseño gráfico, la tecnología de producción gráfica u otra cosa
- evitar distorsionar lo que los datos tienen que decir
- presentar muchos números en un espacio pequeño
- hacer que grandes conjuntos de datos sean coherentes
- animar al ojo a comparar diferentes piezas de datos
- revelar los datos en varios niveles de detalle, desde una visión general amplia hasta la estructura fina
- tienen un propósito razonablemente claro: descripción, exploración, tabulación o decoración
- integrarse estrechamente con las descripciones verbales y estadísticas de un conjunto de datos.
Los gráficos revelan datos. De hecho, los gráficos pueden ser más precisos y reveladores que los cálculos estadísticos convencionales".
Por ejemplo, el diagrama de Minard muestra las pérdidas sufridas por el ejército de Napoleón en el período 1812-1813. Se trazan seis variables: el tamaño del ejército, su ubicación en una superficie bidimensional (x e y), el tiempo, la dirección del movimiento y la temperatura. El ancho de la línea ilustra una comparación (tamaño del ejército en momentos determinados), mientras que el eje de la temperatura sugiere una causa del cambio en el tamaño del ejército. Esta pantalla multivariante en una superficie bidimensional cuenta una historia que se puede comprender de inmediato mientras se identifican los datos de origen para generar credibilidad. Tufte escribió en 1983 que: "Bien puede ser el mejor gráfico estadístico jamás dibujado".
No aplicar estos principios puede dar como resultado gráficos engañosos, distorsionar el mensaje o respaldar una conclusión errónea. Según Tufte, chartjunk se refiere a la decoración interior extraña del gráfico que no realza el mensaje o los efectos tridimensionales o de perspectiva gratuitos. Separar innecesariamente la clave explicativa de la imagen misma, obligando al ojo a viajar de un lado a otro de la imagen a la clave, es una forma de "basura administrativa". La proporción de "datos a tinta" debe maximizarse, borrando la tinta que no es de datos cuando sea factible.
La Oficina de Presupuesto del Congreso resumió varias mejores prácticas para pantallas gráficas en una presentación de junio de 2014. Estos incluyeron: a) Conocer a su audiencia; b) Diseñar gráficos que puedan estar solos fuera del contexto del informe; y c) Diseñar gráficos que comuniquen los mensajes clave del informe.
Mensajes cuantitativos
El autor Stephen Few describió ocho tipos de mensajes cuantitativos que los usuarios pueden intentar comprender o comunicar a partir de un conjunto de datos y los gráficos asociados utilizados para ayudar a comunicar el mensaje:
- Serie de tiempo: se captura una sola variable durante un período de tiempo, como la tasa de desempleo o las medidas de temperatura durante un período de 10 años. Se puede utilizar un gráfico de líneas para demostrar la tendencia a lo largo del tiempo.
- Clasificación: las subdivisiones categóricas se clasifican en orden ascendente o descendente, como una clasificación del rendimiento de ventas (la medida) por vendedores (la categoría, con cada vendedor una subdivisión categórica) durante un solo período. Se puede usar un gráfico de barras para mostrar la comparación entre los vendedores.
- Parte del todo: las subdivisiones categóricas se miden como una proporción del todo (es decir, un porcentaje del 100%). Un gráfico circular o de barras puede mostrar la comparación de proporciones, como la participación de mercado representada por los competidores en un mercado.
- Desviación: las subdivisiones categóricas se comparan con una referencia, como una comparación de los gastos reales con los presupuestados para varios departamentos de una empresa durante un período de tiempo determinado. Un gráfico de barras puede mostrar la comparación de la cantidad real con la cantidad de referencia.
- Distribución de frecuencias: Muestra el número de observaciones de una variable en particular para un intervalo dado, como el número de años en los que el rendimiento del mercado de valores está entre intervalos como 0-10%, 11-20%, etc. Un histograma, un tipo de gráfico de barras, se puede utilizar para este análisis. Un diagrama de caja ayuda a visualizar estadísticas clave sobre la distribución, como la mediana, los cuartiles, los valores atípicos, etc.
- Correlación: Comparación entre observaciones representadas por dos variables (X,Y) para determinar si tienden a moverse en la misma dirección o en direcciones opuestas. Por ejemplo, graficar el desempleo (X) y la inflación (Y) para una muestra de meses. Normalmente se utiliza un gráfico de dispersión para este mensaje.
- Comparación nominal: Comparar subdivisiones categóricas sin ningún orden en particular, como el volumen de ventas por código de producto. Se puede utilizar un gráfico de barras para esta comparación.
- Geográfica o geoespacial: comparación de una variable en un mapa o diseño, como la tasa de desempleo por estado o el número de personas en los distintos pisos de un edificio. Un cartograma es un gráfico típico utilizado.
Los analistas que revisan un conjunto de datos pueden considerar si algunos o todos los mensajes y tipos de gráficos anteriores son aplicables a su tarea y audiencia. El proceso de prueba y error para identificar relaciones y mensajes significativos en los datos es parte del análisis exploratorio de datos.
Percepción visual y visualización de datos.
Un ser humano puede distinguir fácilmente las diferencias en la longitud, la forma, la orientación, las distancias y el color (matiz) de las líneas sin un esfuerzo de procesamiento significativo; estos se denominan "atributos pre-atentos". Por ejemplo, puede requerir mucho tiempo y esfuerzo ("procesamiento atento") para identificar la cantidad de veces que aparece el dígito "5" en una serie de números; pero si ese dígito es diferente en tamaño, orientación o color, las instancias del dígito se pueden notar rápidamente a través del procesamiento de atención previa.
Los gráficos convincentes aprovechan el procesamiento y los atributos de atención previa y la fuerza relativa de estos atributos. Por ejemplo, dado que los humanos pueden procesar más fácilmente las diferencias en la longitud de las líneas que en el área de la superficie, puede ser más efectivo usar un gráfico de barras (que aprovecha la longitud de la línea para mostrar la comparación) en lugar de gráficos circulares (que usan el área de la superficie para mostrar la comparación).).
Percepción/cognición humana y visualización de datos
Casi todas las visualizaciones de datos se crean para el consumo humano. El conocimiento de la percepción y la cognición humanas es necesario cuando se diseñan visualizaciones intuitivas. La cognición se refiere a procesos en los seres humanos como la percepción, la atención, el aprendizaje, la memoria, el pensamiento, la formación de conceptos, la lectura y la resolución de problemas.El procesamiento visual humano es eficiente para detectar cambios y hacer comparaciones entre cantidades, tamaños, formas y variaciones en la luminosidad. Cuando las propiedades de los datos simbólicos se asignan a propiedades visuales, los humanos pueden examinar grandes cantidades de datos de manera eficiente. Se estima que 2/3 de las neuronas del cerebro pueden estar involucradas en el procesamiento visual. La visualización adecuada proporciona un enfoque diferente para mostrar posibles conexiones, relaciones, etc., que no son tan evidentes en los datos cuantitativos no visualizados. La visualización puede convertirse en un medio de exploración de datos.
Los estudios han demostrado que las personas utilizan en promedio un 19 % menos de recursos cognitivos y un 4,5 % más capaces de recordar detalles al comparar la visualización de datos con el texto.
Historia
El estudio moderno de la visualización comenzó con los gráficos por computadora, que "desde un principio se han utilizado para estudiar problemas científicos. Sin embargo, en sus primeros días, la falta de poder gráfico a menudo limitaba su utilidad. El énfasis reciente en la visualización comenzó en 1987 con el especial número de Computer Graphics on Visualization in Scientific Computing. Desde entonces ha habido varias conferencias y talleres, copatrocinados por IEEE Computer Society y ACM SIGGRAPH". Se han dedicado a los temas generales de visualización de datos, visualización de información y visualización científica, y áreas más específicas como la visualización de volumen. En 1786, William Playfair publicó los primeros gráficos de presentación.
No existe un "historial" completo de visualización de datos. No existen relatos que abarquen todo el desarrollo del pensamiento visual y la representación visual de datos, y que cotejen las contribuciones de disciplinas dispares. Michael Friendly y Daniel J Denis de la Universidad de York están comprometidos en un proyecto que intenta proporcionar una historia completa de la visualización. Contrariamente a la creencia general, la visualización de datos no es un desarrollo moderno. Desde la prehistoria, los datos estelares o información como la ubicación de las estrellas se visualizaron en las paredes de las cuevas (como las que se encuentran en la cueva de Lascaux en el sur de Francia) desde la era del Pleistoceno.Los artefactos físicos como las fichas de arcilla mesopotámicas (5500 a. C.), los quipus incas (2600 a. C.) y los gráficos de barras de las Islas Marshall (sf) también se pueden considerar como visualización de información cuantitativa.
La primera visualización de datos documentada se remonta al año 1160 a. C. con el mapa de papiro de Turín, que ilustra con precisión la distribución de los recursos geológicos y proporciona información sobre la extracción de esos recursos.Dichos mapas se pueden categorizar como cartografía temática, que es un tipo de visualización de datos que presenta y comunica datos e información específicos a través de una ilustración geográfica diseñada para mostrar un tema particular relacionado con un área geográfica específica. Las primeras formas documentadas de visualización de datos fueron varios mapas temáticos de diferentes culturas e ideogramas y jeroglíficos que proporcionaban y permitían la interpretación de la información ilustrada. Por ejemplo, las tablillas lineales B de Micenas proporcionaron una visualización de información sobre los comercios de la era del Bronce tardío en el Mediterráneo. La idea de las coordenadas fue utilizada por los agrimensores del antiguo Egipto al diseñar ciudades, las posiciones terrenales y celestiales se ubicaron por algo similar a la latitud y la longitud al menos en el año 200 a. y la proyección cartográfica de una tierra esférica en latitud y longitud por Claudio Ptolomeo [c.85–c. 165] en Alejandría serviría como patrón de referencia hasta el siglo XIV.
La invención del papel y el pergamino permitió un mayor desarrollo de las visualizaciones a lo largo de la historia. La figura muestra un gráfico del siglo X o posiblemente del XI que pretende ser una ilustración del movimiento planetario, utilizado en un apéndice de un libro de texto en las escuelas de los monasterios. Aparentemente, el gráfico pretendía representar un gráfico de las inclinaciones de las órbitas planetarias en función del tiempo. Para ello se representaba la zona del zodíaco en un plano con una línea horizontal dividida en treinta partes como eje del tiempo o longitudinal. El eje vertical designa el ancho del zodíaco. La escala horizontal parece haber sido elegida para cada planeta individualmente porque los períodos no se pueden reconciliar. El texto adjunto se refiere únicamente a las amplitudes. Las curvas aparentemente no están relacionadas en el tiempo.
En el siglo XVI, las técnicas y los instrumentos para la observación y medición precisas de las cantidades físicas y la posición geográfica y celeste estaban bien desarrollados (por ejemplo, un "cuadrante de pared" construido por Tycho Brahe [1546-1601], que cubría una pared entera en su observatorio). De particular importancia fue el desarrollo de la triangulación y otros métodos para determinar con precisión las ubicaciones cartográficas. Muy pronto, la medida del tiempo llevó a los estudiosos a desarrollar una forma innovadora de visualizar los datos (por ejemplo, Lorenz Codomann en 1596, Johannes Temporarius en 1596).
El filósofo y matemático francés René Descartes y Pierre de Fermat desarrollaron la geometría analítica y el sistema de coordenadas bidimensional que influyeron mucho en los métodos prácticos de visualización y cálculo de valores. El trabajo de Fermat y Blaise Pascal sobre estadística y teoría de la probabilidad sentó las bases de lo que ahora conceptualizamos como datos. Según la Interaction Design Foundation, estos desarrollos permitieron y ayudaron a William Playfair, quien vio potencial en la comunicación gráfica de datos cuantitativos, para generar y desarrollar métodos gráficos de estadísticas.
En la segunda mitad del siglo XX, Jacques Bertin usó gráficos cuantitativos para representar información "de manera intuitiva, clara, precisa y eficiente".
John Tukey y Edward Tufte superaron los límites de la visualización de datos; Tukey con su nuevo enfoque estadístico de análisis exploratorio de datos y Tufte con su libro "La presentación visual de información cuantitativa" allanaron el camino para refinar las técnicas de visualización de datos para más que estadísticos. Con la progresión de la tecnología vino la progresión de la visualización de datos; comenzando con visualizaciones dibujadas a mano y evolucionando hacia aplicaciones más técnicas, incluidos diseños interactivos que conducen a la visualización de software.
Programas como SAS, SOFA, R, Minitab, Cornerstone y más permiten la visualización de datos en el campo de la estadística. Otras aplicaciones de visualización de datos, más enfocadas y únicas para las personas, los lenguajes de programación como D3, Python y JavaScript ayudan a hacer posible la visualización de datos cuantitativos. Las escuelas privadas también han desarrollado programas para satisfacer la demanda de visualización de datos de aprendizaje y bibliotecas de programación asociadas, incluidos programas gratuitos como The Data Incubator o programas pagos como General Assembly.
Comenzando con el simposio "Data to Discovery" en 2013, ArtCenter College of Design, Caltech y JPL en Pasadena han llevado a cabo un programa anual sobre visualización interactiva de datos. El programa pregunta: ¿Cómo puede la visualización interactiva de datos ayudar a los científicos e ingenieros a explorar sus datos de manera más efectiva? ¿Cómo pueden la computación, el diseño y el pensamiento de diseño ayudar a maximizar los resultados de la investigación? ¿Qué metodologías son más efectivas para aprovechar el conocimiento de estos campos? Al codificar información relacional con características visuales e interactivas apropiadas para ayudar a interrogar y, en última instancia, obtener una nueva visión de los datos, el programa desarrolla nuevos enfoques interdisciplinarios para problemas científicos complejos, combinando el pensamiento de diseño y los últimos métodos de computación, diseño centrado en el usuario, diseño de interacción. y gráficos 3D.
Terminología
La visualización de datos implica una terminología específica, parte de la cual se deriva de las estadísticas. Por ejemplo, el autor Stephen Few define dos tipos de datos, que se utilizan en combinación para respaldar un análisis o una visualización significativos:
- Categóricas: Representan grupos de objetos con una característica particular. Las variables categóricas pueden ser nominales u ordinales. Las variables nominales, por ejemplo, el género, no tienen orden entre ellas y, por lo tanto, son nominales. Las variables ordinales son categorías con un orden, para que la muestra registre el grupo de edad en el que se encuentra alguien.
- Cuantitativo: Representa medidas, como la altura de una persona o la temperatura de un ambiente. Las variables cuantitativas pueden ser continuas o discretas. Las variables continuas capturan la idea de que las mediciones siempre se pueden hacer con mayor precisión. Mientras que las variables discretas tienen solo un número finito de posibilidades, como un recuento de algunos resultados o una edad medida en años completos.
La distinción entre variables cuantitativas y categóricas es importante porque los dos tipos requieren diferentes métodos de visualización.
Los dos tipos principales de pantallas de información son las tablas y los gráficos.
- Una tabla contiene datos cuantitativos organizados en filas y columnas con etiquetas categóricas. Se utiliza principalmente para buscar valores específicos. En el ejemplo anterior, la tabla podría tener etiquetas de columnas categóricas que representen el nombre (una variable cualitativa) y la edad (una variable cuantitativa), con cada fila de datos representando a una persona (la unidad experimental muestreada o subdivisión de categoría).
- Un gráfico se usa principalmente para mostrar relaciones entre datos y representa valores codificados como objetos visuales (p. ej., líneas, barras o puntos). Los valores numéricos se muestran dentro de un área delimitada por uno o más ejes. Estos ejes proporcionan escalas (cuantitativas y categóricas) que se utilizan para etiquetar y asignar valores a los objetos visuales. Muchos gráficos también se denominan tablas.
Eppler y Lengler han desarrollado la "Tabla periódica de métodos de visualización", un gráfico interactivo que muestra varios métodos de visualización de datos. Incluye seis tipos de métodos de visualización de datos: datos, información, concepto, estrategia, metáfora y compuesto.
Técnicas
Nombre | Dimensiones visuales | Descripción / Ejemplos de uso | |
---|---|---|---|
Gráfico de barras | longitud/cuentacategoríacolor | Presenta datos categóricos con barras rectangulares con alturas o longitudes proporcionales a los valores que representan. Las barras se pueden trazar vertical u horizontalmente.Un gráfico de barras muestra comparaciones entre categorías discretas. Un eje del gráfico muestra las categorías específicas que se comparan y el otro eje representa un valor medido.Algunos gráficos de barras presentan barras agrupadas en grupos de más de una, mostrando los valores de más de una variable medida. Estos grupos agrupados se pueden diferenciar mediante el color.Por ejemplo; comparación de valores, como el rendimiento de las ventas de varias personas o empresas en un solo período de tiempo. | |
Gráfico de barras de ancho variable ("variwide") | categoría (tamaño/recuento/extensión en la primera dimensión)tamaño/recuento/extensión en segunda dimensióntamaño/recuento/extensión como área de la barracolor | Incluye la mayoría de las características del gráfico de barras básico, arribaEl área de la barra de ancho no uniforme transmite explícitamente información de una tercera cantidad que está implícitamente relacionada con la primera y la segunda cantidad de los ejes horizontal y vertical | |
Gráfico de barras ortogonales (ortogonales compuestas) | valor numérico de la primera variable (extensión en la primera dimensión; barras horizontales superpuestas)valor numérico de la segunda variable (extensión en la segunda dimensión; como gráfico de barras verticales convencional)categoría para la primera y la segunda variable (p. ej., codificada por colores) | Incluye la mayoría de las características del gráfico de barras básico, arribaPares de variables numéricas, generalmente codificadas por colores, representadas por categoríaNo es necesario que las variables estén directamente relacionadas como en los gráficos "variwide" | |
Histograma | límites de contenedorescuenta/longitudcolor | Una representación aproximada de la distribución de datos numéricos. Divida todo el rango de valores en una serie de intervalos y luego cuente cuántos valores caen en cada intervalo, esto se denomina agrupación. Los contenedores generalmente se especifican como intervalos consecutivos que no se superponen de una variable. Los contenedores (intervalos) deben ser adyacentes y, a menudo (pero no es obligatorio que lo sean) del mismo tamaño.Por ejemplo, determinar la frecuencia de los rendimientos porcentuales anuales del mercado de valores dentro de rangos particulares (contenedores) como 0-10 %, 11-20 %, etc. La altura de la barra representa el número de observaciones (años) con un % de rendimiento en el rango representado por el bin respectivo. | |
Gráfico de dispersión | posición xposiciónsímbolo/glifocolorTalla | Utiliza coordenadas cartesianas para mostrar valores de normalmente dos variables para un conjunto de datos.Los puntos se pueden codificar por color, forma y/o tamaño para mostrar variables adicionales.Cada punto en el gráfico tiene un término x e y asociado que determina su ubicación en el plano cartesiano.Los diagramas de dispersión se utilizan a menudo para resaltar la correlación entre las variables (x e y). | |
Diagrama de dispersión (3D) | posición xposición yposición zcolorsímboloTalla | Similar al diagrama de dispersión bidimensional anterior, el diagrama de dispersión tridimensional visualiza la relación entre típicamente 3 variables de un conjunto de datos.Una vez más, el punto se puede codificar por color, forma y/o tamaño para mostrar variables adicionales | |
La red | tamaño de los nodoscolor de los nodoslazos de espesorlazos de colorespacialización | Encontrar grupos en la red (por ejemplo, agrupar amigos de Facebook en diferentes grupos).Descubrimiento de puentes (intermediarios de información o abridores de límites) entre clústeres en la redDeterminar los nodos más influyentes de la red (p. ej., una empresa quiere dirigirse a un pequeño grupo de personas en Twitter para una campaña de marketing).Encontrar actores atípicos que no encajan en ningún clúster o están en la periferia de una red. | |
Gráfico circular | color | Representa una variable categórica que se divide en porciones para ilustrar la proporción numérica. En un gráfico circular, la longitud del arco de cada sector (y, en consecuencia, su ángulo central y su área) es proporcional a la cantidad que representa.Por ejemplo, como se muestra en el gráfico de la derecha, la proporción de hablantes nativos de inglés en todo el mundo | |
Gráfico de linea | posición xposiciónsímbolo/glifocolorTalla | Representa la información como una serie de puntos de datos llamados "marcadores" conectados por segmentos de línea recta.Similar a un diagrama de dispersión, excepto que los puntos de medición se ordenan (normalmente por su valor en el eje x) y se unen con segmentos de línea recta.A menudo se usa para visualizar una tendencia en los datos a lo largo de intervalos de tiempo (una serie de tiempo), por lo que la línea a menudo se dibuja cronológicamente. | |
Flujograma | anchocolortiempo (flujo) | Un tipo de gráfico de áreas apiladas que se desplaza alrededor de un eje central, lo que da como resultado una forma fluida.A diferencia de un gráfico de área apilada tradicional en el que las capas se apilan sobre un eje, en un gráfico de flujo las capas se colocan para minimizar su "movimiento".Los Streamgraphs muestran datos con solo valores positivos y no pueden representar valores negativos y positivos.Por ejemplo, la imagen de la derecha muestra la música que escuchó un usuario a principios del año 2012. | |
Mapa de árbol | Tallacolor | Es un método para mostrar datos jerárquicos utilizando figuras anidadas, generalmente rectángulos.Por ejemplo, espacio en disco por ubicación/tipo de archivo | |
Gráfico de gantt | colortiempo (flujo) | Tipo de gráfico de barras que ilustra el cronograma de un proyectoLos diagramas de Gantt modernos también muestran las relaciones de dependencia entre las actividades y el estado actual del cronograma.Por ejemplo, utilizado en la planificación de proyectos. | |
Mapa de calor | colorvariable categórica | Representa la magnitud de un fenómeno en forma de color en dos dimensiones.Hay dos categorías de mapas de calor:mapa de calor de clúster: donde las magnitudes se presentan en una matriz de tamaño de celda fijo cuyas filas y columnas son datos categóricos. Por ejemplo, el gráfico de la derecha.mapa de calor espacial: donde no hay una matriz de tamaño de celda fijo, por ejemplo, un mapa de calor. Por ejemplo, un mapa de calor que muestra las densidades de población que se muestran en un mapa geográfico | |
gráfico de rayas | posición xcolor | Una secuencia de franjas de colores representa visualmente la tendencia de una serie de datos.Representa una sola variable: la temperatura prototípica a lo largo del tiempo para representar el calentamiento globalDeliberadamente minimalista, sin indicios técnicos, para comunicarse intuitivamente con no científicosSe puede "apilar" para representar series en plural (ejemplo) | |
Gráfico de espiral animado | distancia radial (variable dependiente)ángulo de rotación (cíclico a través de los meses)color (años que pasan) | Representa una única variable dependiente: la temperatura prototípica a lo largo del tiempo para representar el calentamiento globalLa variable dependiente se traza progresivamente a lo largo de una "espiral" continua determinada en función de (a) el ángulo de rotación constante (doce meses por revolución) y (b) la evolución del color (cambios de color a lo largo de los años) | |
Diagrama de caja y bigotes | eje xeje y | Un método para representar gráficamente grupos de datos numéricos a través de sus cuartiles.Los diagramas de caja también pueden tener líneas que se extienden desde las cajas (bigotes) que indican la variabilidad fuera de los cuartiles superior e inferior.Los valores atípicos se pueden trazar como puntos individuales.Los dos recuadros graficados uno encima del otro representan el 50% medio de los datos, con la línea que separa los dos recuadros identificando el valor de los datos medianos y los bordes superior e inferior de los recuadros representan los puntos de datos del percentil 75 y 25 respectivamente.Los diagramas de caja no son paramétricos: muestran la variación en las muestras de una población estadística sin hacer suposiciones sobre la distribución estadística subyacente, por lo que son útiles para obtener una comprensión inicial de un conjunto de datos. Por ejemplo, comparar la distribución de edades entre un grupo de personas (por ejemplo, hombres y mujeres). | |
diagrama de flujo | flujo de trabajo o proceso | Representa un flujo de trabajo, un proceso o un enfoque paso a paso para resolver una tarea.El diagrama de flujo muestra los pasos como cuadros de varios tipos y su orden conectando los cuadros con flechas.Por ejemplo, delimitar las acciones a realizar si una lámpara no funciona, como se muestra en el diagrama de la derecha. | |
Carta de radar | atributosvalor asignado a los atributos | Muestra datos multivariados en forma de un gráfico bidimensional de tres o más variables cuantitativas representadas en ejes que comienzan desde el mismo punto.La posición relativa y el ángulo de los ejes generalmente no brindan información, pero se pueden aplicar varias heurísticas, como algoritmos que trazan datos como el área total máxima, para clasificar las variables (ejes) en posiciones relativas que revelan distintas correlaciones, compensaciones, y una multitud de otras medidas comparativas.Por ejemplo, comparar atributos/habilidades (p. ej., comunicación, análisis, habilidades de TI) aprendidas en diferentes títulos universitarios (p. ej., matemáticas, economía, psicología) | |
diagrama de Venn | todas las relaciones lógicas posibles entre una colección finita de conjuntos diferentes. | Muestra todas las relaciones lógicas posibles entre una colección finita de conjuntos diferentes.Estos diagramas representan elementos como puntos en el plano y conjuntos como regiones dentro de curvas cerradas.Un diagrama de Venn consta de múltiples curvas cerradas superpuestas, generalmente círculos, cada uno de los cuales representa un conjunto.Los puntos dentro de una curva etiquetada S representan elementos del conjunto S, mientras que los puntos fuera del límite representan elementos que no están en el conjunto S. Esto se presta a visualizaciones intuitivas; por ejemplo, el conjunto de todos los elementos que son miembros de ambos conjuntos S y T, denotado S ∩ T y leído "la intersección de S y T ", se representa visualmente por el área de superposición de las regiones S y T. En los diagramas de Venn, las curvas se superponen de todas las formas posibles, mostrando todas las relaciones posibles entre los conjuntos. | |
Iconografía de correlaciones | Sin ejeLínea sólidalinea punteadacolor | Análisis exploratorio de datos.Reemplace una matriz de correlaciones por un diagrama donde las correlaciones "notable" estén representadas por una línea sólida (correlación positiva) o una línea punteada (correlación negativa).Los puntos se pueden codificar a través del color. |
Otras técnicas
- Cartograma
- Cladograma (filogenia)
- Mapeo conceptual
- Dendograma (clasificación)
- Modelo de referencia de visualización de información
- Dibujo gráfico
- Mapa de calor
- Árbol Hiperbólico
- Escalamiento multidimensional
- Coordenadas paralelas
- Entorno de resolución de problemas.
- Mapeo de árboles
Interactividad
La visualización interactiva de datos permite realizar acciones directas en un gráfico para cambiar elementos y vincular varios gráficos.
La visualización interactiva de datos ha sido una búsqueda de los estadísticos desde finales de la década de 1960. Se pueden encontrar ejemplos de los desarrollos en la biblioteca de préstamo de videos de la Asociación Estadounidense de Estadística.
Las interacciones comunes incluyen:
- Cepillado: funciona usando el mouse para controlar un pincel, cambiando directamente el color o el glifo de los elementos de una trama. El pincel es a veces un puntero ya veces funciona dibujando una especie de contorno alrededor de los puntos; el contorno a veces tiene una forma irregular, como un lazo. El cepillado se usa más comúnmente cuando se ven varias parcelas y existe algún mecanismo de vinculación entre las parcelas. Existen varios modelos conceptuales diferentes para el cepillado y una serie de mecanismos de vinculación comunes. El cepillado de diagramas de dispersión puede ser una operación transitoria en la que los puntos del diagrama activo solo retienen sus nuevas características. Al mismo tiempo, son encerrados o cortados por el pincel, o puede ser una operación persistente, de modo que los puntos conservan su nueva apariencia después de que el pincel se haya alejado. El cepillado transitorio generalmente se elige para el cepillado vinculado,
- Pintar: El cepillado persistente es útil cuando queremos agrupar los puntos en clusters y luego proceder a utilizar otras operaciones, como el recorrido, para comparar los grupos. Se está convirtiendo en una terminología común llamar pintura a la operación persistente,
- Identificación: que también podría llamarse etiquetado o cepillado de etiquetas, es otra manipulación de la trama que se puede vincular. Al acercar el cursor a un punto o borde en un gráfico de dispersión, o a una barra en un gráfico de barras, aparece una etiqueta que identifica el elemento del gráfico. Está ampliamente disponible en muchos gráficos interactivos y, a veces, se denomina mouseover.
- Escalado: mapea los datos en la ventana y cambia en el área de la. La función de mapeo nos ayuda a aprender diferentes cosas de la misma trama. El escalado se usa comúnmente para acercar las regiones abarrotadas de un gráfico de dispersión, y también se puede usar para cambiar la relación de aspecto de un gráfico, para revelar diferentes características de los datos.
- Vinculación: conecta elementos seleccionados en una parcela con elementos en otra parcela. El tipo más simple de enlace, uno a uno, donde ambos gráficos muestran diferentes proyecciones de los mismos datos, y un punto en un gráfico corresponde exactamente a un punto en el otro. Cuando se utilizan diagramas de áreas, el cepillado de cualquier parte de un área tiene el mismo efecto que cepillarlo todo y es equivalente a seleccionar todos los casos en la categoría correspondiente. Incluso cuando algunos elementos de la trama representan más de un caso, la regla de vinculación subyacente aún vincula un caso en una trama con el mismo caso en otras tramas. La vinculación también puede ser por variable categórica, como por una identificación de tema, de modo que todos los valores de datos correspondientes a ese tema se resalten en todas las parcelas visibles.
Otras perspectivas
Existen diferentes enfoques sobre el alcance de la visualización de datos. Un enfoque común es la presentación de la información, como Friedman (2008). Friendly (2008) supone dos partes principales de visualización de datos: gráficos estadísticos y cartografía temática. En esta línea, el artículo "Visualización de datos: enfoques modernos" (2007) ofrece una descripción general de siete temas de visualización de datos:
- Artículos y recursos
- Visualización de conexiones
- Visualización de datos
- Mostrando noticias
- Mostrar sitios web
- Mapas mentales
- Herramientas y servicios
Todas estas materias están íntimamente relacionadas con el diseño gráfico y la representación de la información.
Por otro lado, desde la perspectiva de la informática, Frits H. Post en 2002 clasificó el campo en subcampos:
- visualización de información
- Técnicas y arquitecturas de interacción.
- Técnicas de modelado
- Métodos multiresolución
- Algoritmos y técnicas de visualización.
- Visualización de volumen
Dentro de The Harvard Business Review, Scott Berinato desarrolló un marco para abordar la visualización de datos. Para comenzar a pensar visualmente, los usuarios deben considerar dos preguntas; 1) Lo que tienes y 2) lo que estás haciendo. El primer paso es identificar qué datos desea visualizar. Está basado en datos, como las ganancias de los últimos diez años, o una idea conceptual, como la forma en que se estructura una organización específica. Una vez que se responde esta pregunta, uno puede concentrarse en si está tratando de comunicar información (visualización declarativa) o tratando de resolver algo (visualización exploratoria). Scott Berinato combina estas preguntas para dar cuatro tipos de comunicación visual, cada uno con sus propios objetivos.
Estos cuatro tipos de comunicación visual son los siguientes;
- ilustración de la idea (conceptual y declarativa).
- Se utiliza para enseñar, explicar y/o simplemente conceptos. Por ejemplo, organigramas y árboles de decisión.
- generación de ideas (conceptuales y exploratorias).
- Acostumbrado a descubrir, innovar y resolver problemas. Por ejemplo, una pizarra después de una lluvia de ideas.
- descubrimiento visual (basado en datos y exploratorio).
- Se utiliza para detectar tendencias y dar sentido a los datos. Este tipo de visual es más común con datos grandes y complejos donde el conjunto de datos es algo desconocido y la tarea es abierta.
- visualización de datos cotidianos (basada en datos y declarativa).
- El tipo de visualización más común y simple que se utiliza para afirmar y establecer un contexto. Por ejemplo, un gráfico de líneas del PIB a lo largo del tiempo.
Aplicaciones
Los conocimientos de visualización de datos e información se están aplicando en áreas como:
- Investigación científica
- Bibliotecas digitales
- Procesamiento de datos
- Gráficos de información
- Análisis de datos financieros
- Cuidado de la salud
- Estudios de mercado
- Control de producción de fabricación.
- Mapeo del crimen
- Gobierno electrónico y modelado de políticas
Organización
Los laboratorios académicos y de la industria notables en el campo son:
- Investigación de adobe
- Investigación de IBM
- Investigación de Google
- Investigación de Microsoft
- Software panóptico
- Instituto de Computación e Imágenes Científicas
- Software de mesa
- Laboratorio de interacción humano-computadora de la Universidad de Maryland
- Vvi
Las conferencias en este campo, clasificadas por importancia en la investigación de visualización de datos, son:
- IEEE Visualization: una conferencia internacional anual sobre visualización científica, visualización de información y análisis visual. La conferencia se lleva a cabo en octubre.
- ACM SIGGRAPH: una conferencia internacional anual sobre gráficos por computadora, convocada por la organización ACM SIGGRAPH. Las fechas de las conferencias varían.
- EuroVis: una conferencia anual en toda Europa sobre visualización de datos, organizada por el Grupo de trabajo de Eurographics sobre visualización de datos y respaldada por el Comité técnico de visualización y gráficos de IEEE (IEEE VGTC). La conferencia generalmente se lleva a cabo en junio.
- Conferencia sobre factores humanos en sistemas informáticos (CHI): una conferencia internacional anual sobre la interacción entre humanos y computadoras, organizada por ACM SIGCHI. La conferencia generalmente se lleva a cabo en abril o mayo.
- Eurographics: una conferencia anual de gráficos por computadora en toda Europa, organizada por la Asociación Europea de Gráficos por Computadora. La conferencia generalmente se lleva a cabo en abril o mayo.
- PacificVis: un simposio anual de visualización que se lleva a cabo en la región de Asia y el Pacífico, patrocinado por el Comité Técnico de Gráficos y Visualización de IEEE (IEEE VGTC). La conferencia generalmente se lleva a cabo en marzo o abril.
Para obtener más ejemplos, consulte: Categoría: Organizaciones de gráficos por computadora
Arquitectura de presentación de datos
La arquitectura de presentación de datos (DPA) es un conjunto de habilidades que busca identificar, ubicar, manipular, formatear y presentar datos de tal manera que comuniquen de manera óptima el significado y el conocimiento adecuado.
Históricamente, el término arquitectura de presentación de datos se atribuye a Kelly Lautt:La arquitectura de presentación de datos es un conjunto de habilidades mucho más amplio que incluye determinar qué datos, en qué programa y en qué formato exacto se presentarán, no solo la mejor manera de presentar los datos que ya se han elegido. Las habilidades de visualización de datos son un elemento de DPA".
Objetivos
DPA tiene dos objetivos principales:
- Usar datos para proporcionar conocimiento de la manera más eficiente posible (minimizar el ruido, la complejidad y los datos o detalles innecesarios dadas las necesidades y roles de cada audiencia)
- Utilizar los datos para brindar conocimiento de la manera más efectiva posible (brindar datos relevantes, oportunos y completos a cada miembro de la audiencia de una manera clara y comprensible que transmita un significado importante, sea procesable y pueda afectar la comprensión, el comportamiento y las decisiones)
Alcance
Con los objetivos anteriores en mente, el trabajo real de la arquitectura de presentación de datos consiste en:
- Crear mecanismos de entrega efectivos para cada miembro de la audiencia según su rol, tareas, ubicaciones y acceso a la tecnología.
- Definir significado importante (conocimiento relevante) que necesita cada miembro de la audiencia en cada contexto
- Determinar la periodicidad requerida de las actualizaciones de datos (la vigencia de los datos)
- Determinar el momento adecuado para la presentación de datos (cuándo y con qué frecuencia el usuario necesita ver los datos)
- Encontrar los datos correctos (área temática, alcance histórico, amplitud, nivel de detalle, etc.)
- Utilizar análisis, agrupación, visualización y otros formatos de presentación apropiados
Campos relacionados
El trabajo de DPA comparte puntos en común con varios otros campos, que incluyen:
- Análisis comercial en la determinación de objetivos comerciales, recopilación de requisitos, mapeo de procesos.
- Mejora de los procesos comerciales en el sentido de que su objetivo es mejorar y agilizar las acciones y decisiones para promover los objetivos comerciales.
- Visualización de datos en el sentido de que utiliza teorías de visualización bien establecidas para agregar o resaltar el significado o la importancia en la presentación de datos.
- Las humanidades digitales exploran formas más matizadas de visualizar datos complejos.
- Arquitectura de la información, pero el enfoque de la arquitectura de la información está en los datos no estructurados y, por lo tanto, excluye tanto el análisis (en el sentido estadístico/de datos) como la transformación directa del contenido real (datos, para DPA) en nuevas entidades y combinaciones.
- HCI y diseño de interacción, ya que muchos de los principios sobre cómo diseñar la visualización de datos interactivos se han desarrollado de forma interdisciplinaria con HCI.
- Periodismo visual y periodismo basado en datos o periodismo de datos: el periodismo visual se ocupa de todo tipo de facilitación gráfica de la narración de noticias, y el periodismo basado en datos y de datos no necesariamente se cuenta con visualización de datos. Sin embargo, el campo del periodismo está a la vanguardia en el desarrollo de nuevas visualizaciones de datos para comunicar datos.
- Diseño gráfico, que transmite información a través del estilo, la tipografía, la posición y otras preocupaciones estéticas.
Contenido relacionado
Oliver Heaviside
Andrés Wiles
Dual space...