Datos brutos

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Las dos columnas a la derecha de la columna más izquierda en esta tabla informatizada son datos brutos.

Los datos brutos, también conocidos como datos primarios, son datos (por ejemplo, números, lecturas de instrumentos, cifras, etc.) recopilados de una fuente. En el contexto de los exámenes, los datos brutos pueden describirse como una puntuación bruta (después de las puntuaciones de las pruebas).

Si un científico instala un termómetro computarizado que registra la temperatura de una mezcla química en un tubo de ensayo cada minuto, la lista de lecturas de temperatura para cada minuto, tal como se imprime en una hoja de cálculo o se ve en una pantalla de computadora, son "datos sin procesar". Los datos sin procesar no han sido sometidos a procesamiento, "limpieza" por parte de los investigadores para eliminar valores atípicos, errores obvios de lectura del instrumento o errores de ingreso de datos, ni a ningún análisis (por ejemplo, determinar aspectos de tendencia central como el resultado promedio o mediano). Además, los datos sin procesar no han sido sujetos a ninguna otra manipulación por parte de un programa de software o un investigador, analista o técnico humano. También se los conoce como datos primarios. Los datos sin procesar es un término relativo (ver datos), porque incluso una vez que los datos sin procesar han sido "limpiados" y procesados por un equipo de investigadores, otro equipo puede considerar estos datos procesados como "datos sin procesar" para otra etapa de la investigación. Los datos sin procesar se pueden introducir en un programa informático o se pueden utilizar en procedimientos manuales, como el análisis de estadísticas de una encuesta. El término "datos sin procesar" puede referirse a los datos binarios en dispositivos de almacenamiento electrónico, como unidades de disco duro (también denominados "datos de bajo nivel").

Generar datos

Los datos se crean o se generan de dos formas. La primera es la denominada "datos capturados" y se obtiene a través de una investigación o un análisis intencionados. La segunda se denomina "datos de escape" y se recopilan normalmente mediante máquinas o terminales como una función secundaria. Por ejemplo, las cajas registradoras, los teléfonos inteligentes y los velocímetros cumplen una función principal, pero pueden recopilar datos como una tarea secundaria. Los datos exhaustivos suelen ser demasiado grandes o de poca utilidad para procesarlos y se vuelven "transitorios" o se desechan.

Ejemplos

En informática, los datos sin procesar pueden tener los siguientes atributos: pueden contener errores humanos, de máquinas o de instrumentos, pueden no estar validados, pueden estar en formatos de área diferentes (coloquiales), no estar codificados ni formateados, o algunas entradas pueden ser "sospechosas" (por ejemplo, valores atípicos) y requerir confirmación o citación. Por ejemplo, una hoja de entrada de datos puede contener fechas como datos sin procesar en muchas formas: "31 de enero de 1999", "31/01/1999", "31/1/99", "31 de enero" u "hoy". Una vez capturados, estos datos sin procesar pueden procesarse y almacenarse en un formato normalizado, tal vez una fecha juliana, para que sea más fácil para las computadoras y los humanos interpretarlos durante el procesamiento posterior. Los datos sin procesar (a veces llamados coloquialmente datos "fuentes" o datos "huevos", estos últimos en referencia a que los datos están "sin cocinar", es decir, "sin procesar", como un huevo crudo) son la entrada de datos para el procesamiento. Se hace una distinción entre datos e información, en el sentido de que la información es el producto final del procesamiento de los datos. Los datos sin procesar que han sido procesados a veces se denominan datos "cocinados" en un sentido coloquial. Aunque los datos sin procesar tienen el potencial de transformarse en "información", se requiere extracción, organización, análisis y formato para la presentación antes de que los datos sin procesar puedan transformarse en información utilizable.

Por ejemplo, una terminal de punto de venta (TPV, una caja registradora computarizada) en un supermercado concurrido recoge cada día enormes volúmenes de datos brutos sobre las compras de los clientes. Sin embargo, esta lista de artículos de alimentación y sus precios y la hora y fecha de compra no proporciona mucha información hasta que se procesa. Una vez procesados y analizados por un programa de software o incluso por un investigador que utilice un bolígrafo, papel y una calculadora, estos datos brutos pueden indicar los artículos concretos que compra cada cliente, cuándo los compra y a qué precio; asimismo, un analista o gerente podría calcular las ventas totales medias por cliente o el gasto medio por día de la semana por hora. Estos datos procesados y analizados proporcionan información al gerente, que luego podría utilizar para determinar, por ejemplo, cuántos cajeros contratar y en qué horarios. Esa información podría convertirse en datos para su posterior procesamiento, por ejemplo, como parte de una campaña de marketing predictivo. Como resultado del procesamiento, los datos sin procesar a veces terminan siendo almacenados en una base de datos, lo que permite que se pueda acceder a ellos para su posterior procesamiento y análisis de diversas maneras.

Tim Berners-Lee (inventor de la World Wide Web) sostiene que compartir datos en bruto es importante para la sociedad. Inspirado por un artículo de Rufus Pollock, de la Open Knowledge Foundation, su llamamiento a la acción es "Datos en bruto ahora", lo que significa que todo el mundo debería exigir que los gobiernos y las empresas compartan los datos que recogen como datos en bruto. Señala que "los datos determinan una gran parte de lo que ocurre en nuestras vidas... porque alguien los toma y hace algo con ellos". Para Berners-Lee, es esencialmente a partir de este intercambio de datos en bruto que surgirán los avances en la ciencia. Los defensores de los datos abiertos sostienen que una vez que los ciudadanos y las organizaciones de la sociedad civil tengan acceso a los datos de las empresas y los gobiernos, esto permitirá a los ciudadanos y las ONG realizar su propio análisis de los datos, lo que puede empoderar a las personas y a la sociedad civil. Por ejemplo, un gobierno puede afirmar que sus políticas están reduciendo la tasa de desempleo, pero un grupo de defensa de los derechos de los pobres puede hacer que sus econometristas realicen su propio análisis de los datos brutos, lo que puede llevar a este grupo a sacar conclusiones diferentes sobre el conjunto de datos.

Véase también

  • Puntuación estándar

Referencias

  1. ^ a b c Kitchin, Rob (2014). La Revolución de Datos. Estados Unidos: Sage. p. 6.

Más lectura

  • Danos los datos crudos, y dánoslo ahora - el blog de Rufus Pollock que inspiró a Tim Berners-Lee
  • Tim Berners-Lee da a la Web una nueva definición
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save