Periodismo de análisis de datos

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

El periodismo de datos o periodismo basado en datos (DDJ) es un proceso periodístico basado en el análisis y filtrado de grandes conjuntos de datos con el fin de crear o elevar una noticia.

El periodismo de datos es un tipo de periodismo que refleja el papel cada vez mayor que se utilizan los datos numéricos en la producción y distribución de información en la era digital. Refleja la mayor interacción entre los productores de contenido (periodistas) y varios otros campos como el diseño, la informática y las estadísticas. Desde el punto de vista de los periodistas, representa "un conjunto superpuesto de competencias extraídas de campos dispares".

El periodismo de datos ha sido ampliamente utilizado para unir varios conceptos y vincularlos al periodismo. Algunos los ven como niveles o etapas que conducen desde los usos más simples a los más complejos de las nuevas tecnologías en el proceso periodístico.

Muchas historias basadas en datos comienzan con recursos recientemente disponibles, como software de código abierto, publicación de acceso abierto y datos abiertos, mientras que otras son productos de solicitudes de registros públicos o materiales filtrados. Este enfoque del periodismo se basa en prácticas más antiguas, sobre todo en los informes asistidos por computadora (CAR), una etiqueta utilizada principalmente en los EE. UU. durante décadas. Otras etiquetas para enfoques parcialmente similares son "periodismo de precisión", basado en un libro de Philipp Meyer, publicado en 1972, donde abogó por el uso de técnicas de las ciencias sociales en la investigación de historias. El periodismo basado en datos tiene un enfoque más amplio. En esencia, el proceso se basa en la creciente disponibilidad de datos abiertos que están disponibles gratuitamente en línea y se analizan con herramientas de código abierto.El periodismo basado en datos se esfuerza por alcanzar nuevos niveles de servicio para el público, ayudando al público en general o a grupos o individuos específicos a comprender patrones y tomar decisiones basadas en los hallazgos. Como tal, el periodismo basado en datos podría ayudar a poner a los periodistas en un papel relevante para la sociedad de una manera nueva.

Contar historias basadas en los datos es el objetivo principal. Los hallazgos de los datos se pueden transformar en cualquier forma de escritura periodística. Las visualizaciones se pueden utilizar para crear una comprensión clara de una situación compleja. Además, los elementos de la narración se pueden utilizar para ilustrar lo que realmente significan los hallazgos, desde la perspectiva de alguien que se ve afectado por un desarrollo. Esta conexión entre los datos y la historia se puede ver como un "nuevo arco" que intenta cerrar la brecha entre los desarrollos que son relevantes, pero mal entendidos, a una historia que es verificable, confiable, relevante y fácil de recordar.

Definiciones

Antonopoulos y Karyotakis definen la práctica como "una forma de mejorar los reportajes y la redacción de noticias con el uso y examen de estadísticas para proporcionar una visión más profunda de una noticia y resaltar datos relevantes. Una tendencia en la era digital del periodismo ha sido para difundir información al público a través de contenido interactivo en línea a través de herramientas de visualización de datos como tablas, gráficos, mapas, infografías, micrositios y mundos visuales. El examen en profundidad de dichos conjuntos de datos puede conducir a resultados y observaciones más concretos sobre temas oportunos. Además, el periodismo de datos puede revelar cuestiones ocultas que aparentemente no eran una prioridad en la cobertura de noticias".

Según el arquitecto y periodista multimedia Mirko Lorenz, el periodismo basado en datos es principalmente un flujo de trabajo que consta de los siguientes elementos: profundizar en los datos extrayéndolos, limpiándolos y estructurándolos, filtrándolos para buscar información específica, visualizando y creando una historia. Este proceso se puede ampliar para proporcionar resultados que satisfagan los intereses individuales y del público en general.

El entrenador y escritor de periodismo de datos Paul Bradshaw describe el proceso del periodismo basado en datos de manera similar: se deben encontrar los datos, lo que puede requerir habilidades especializadas como MySQL o Python, luego interrogarlos, para lo cual es necesaria la comprensión de la jerga y las estadísticas, y finalmente visualizado y triturado con la ayuda de herramientas de código abierto.

Una definición más orientada a los resultados proviene del reportero de datos y estratega web Henk van Ess (2012). "El periodismo basado en datos permite a los reporteros contar historias no contadas, encontrar nuevos ángulos o completar historias a través de un flujo de trabajo de búsqueda, procesamiento y presentación de cantidades significativas de datos (en cualquier forma dada) con o sin herramientas abiertas". Van Ess afirma que parte del flujo de trabajo basado en datos conduce a productos que "no están en órbita con las leyes de una buena narración de historias" porque el resultado enfatiza mostrar el problema, no explicarlo. "Una buena producción basada en datos tiene diferentes capas. Le permite encontrar información personalizada que solo es importante para usted, profundizando en lo relevante, pero también le permite alejarse para obtener una visión general".

En 2013, Van Ess presentó una definición más corta que no involucra la visualización per se: "El periodismo de datos puede basarse en cualquier dato que deba procesarse primero con herramientas antes de que sea posible una historia relevante. No incluye visualización per se."

Sin embargo, uno de los problemas para definir el periodismo de datos es que muchas definiciones no son lo suficientemente claras y se enfocan en describir los métodos computacionales de optimización, análisis y visualización de la información.

La emergencia como concepto

El término "periodismo de datos" fue acuñado por el comentarista político Ben Wattenberg a través de su trabajo que comenzó a mediados de la década de 1960 superponiendo narrativa con estadísticas para respaldar la teoría de que Estados Unidos había entrado en una edad de oro.

Uno de los primeros ejemplos del uso de computadoras con el periodismo se remonta a un intento de CBS de 1952 de usar una computadora central para predecir el resultado de las elecciones presidenciales, pero no fue hasta 1967 que el uso de computadoras para el análisis de datos comenzó a ser más generalizado. adoptado.

Trabajando para Detroit Free Press en ese momento, Philip Meyer usó una computadora central para mejorar los informes sobre los disturbios que se extendían por toda la ciudad. Con un nuevo precedente establecido para el análisis de datos en el periodismo, Meyer colaboró con Donald Barlett y James Steele para observar patrones con sentencias condenatorias en Filadelfia durante la década de 1970. Más tarde, Meyer escribió un libro titulado Periodismo de precisión que defendía el uso de estas técnicas para combinar el análisis de datos con el periodismo.

Hacia fines de la década de 1980, comenzaron a ocurrir eventos significativos que ayudaron a organizar formalmente el campo del periodismo asistido por computadora. El reportero de investigación Bill Dedman de The Atlanta Journal-Constitution ganó un premio Pulitzer en 1989 por El color del dinero, su serie de historias de 1988 que usa técnicas CAR para analizar la discriminación racial por parte de bancos y otros prestamistas hipotecarios en vecindarios negros de ingresos medios. El Instituto Nacional de Informes Asistidos por Computadora (NICAR)se formó en la Escuela de Periodismo de Missouri en colaboración con Investigative Reporters and Editors (IRE). La primera conferencia dedicada a CAR fue organizada por NICAR junto con James Brown en la Universidad de Indiana y se llevó a cabo en 1990. Las conferencias NICAR se han realizado anualmente desde entonces y ahora es la reunión más grande de periodistas de datos.

Aunque el periodismo de datos ha sido usado de manera informal por profesionales de la información asistida por computadora durante décadas, el primer uso registrado por una importante organización de noticias es The Guardian, que lanzó su Datablog en marzo de 2009. Y aunque se disputa la paternidad del término, es ampliamente utilizado desde la filtración de documentos de la guerra de Afganistán de Wikileaks en julio de 2010.

La cobertura de The Guardian de los registros de guerra aprovechó las herramientas gratuitas de visualización de datos como Google Fusion Tables, otro aspecto común del periodismo de datos. Los hechos son sagrados por el editor de Datablog de The Guardian , Simon Rogers, describe el periodismo de datos de esta manera:

"Los comentarios son gratuitos", escribió el editor de The Guardian, CP Scott, en 1921, "pero los hechos son sagrados". Noventa años después, publicar esos hechos sagrados se ha convertido en un nuevo tipo de periodismo en sí mismo: el periodismo de datos. Y se está convirtiendo rápidamente en parte del establecimiento.

El periodismo de datos de investigación combina el campo del periodismo de datos con el periodismo de investigación. Un ejemplo de periodismo de datos de investigación es la investigación de grandes cantidades de datos textuales o financieros. El periodismo de datos de investigación también puede relacionarse con el campo del análisis de big data para el procesamiento de grandes conjuntos de datos.

Desde la introducción del concepto, varias empresas de medios han creado "equipos de datos" que desarrollan visualizaciones para las salas de redacción. Los más notables son los equipos, por ejemplo, en Reuters, Pro Publica y La Nación (Argentina). En Europa, The Guardian y Berliner Morgenpost tienen equipos muy productivos, así como emisoras públicas.

Como demuestran proyectos como el escándalo de los gastos de MP (2009) y la publicación en 2013 de las "filtraciones en el extranjero", el periodismo basado en datos puede asumir un papel de investigación, lidiando con datos "no tan abiertos", es decir, secretos en ocasiones.

Los premios anuales de periodismo de datos reconocen los reportajes destacados en el campo del periodismo de datos, y en los últimos años se han otorgado numerosos premios Pulitzer a la narración basada en datos, incluido el premio Pulitzer 2018 en reportajes internacionales y el premio Pulitzer 2017 en servicio público.

Calidad de los datos

En muchas investigaciones los datos que se pueden encontrar pueden tener omisiones o ser engañosos. Como una capa del periodismo basado en datos, es importante un examen crítico de la calidad de los datos. En otros casos, es posible que los datos no sean públicos o no estén en el formato correcto para un análisis posterior, por ejemplo, solo están disponibles en formato PDF. Aquí, el proceso de periodismo basado en datos puede convertirse en historias sobre la calidad de los datos o la negativa de las instituciones a proporcionar los datos. Dado que la práctica en su conjunto se encuentra en los primeros pasos de desarrollo, los exámenes de las fuentes de datos, los conjuntos de datos, la calidad de los datos y el formato de los datos son, por lo tanto, una parte igualmente importante de este trabajo.

Periodismo basado en datos y el valor de la confianza

Con base en la perspectiva de profundizar en los hechos y los impulsores de los eventos, se sugiere un cambio en las estrategias de los medios: en esta perspectiva, la idea es pasar "de la atención a la confianza". La creación de atención, que ha sido un pilar de los modelos comerciales de los medios, ha perdido su relevancia porque los informes de nuevos eventos a menudo se distribuyen más rápido a través de nuevas plataformas como Twitter que a través de los canales de medios tradicionales. Por otro lado, la confianza puede entenderse como un recurso escaso. Si bien la distribución de información es mucho más fácil y rápida a través de la web, la abundancia de ofertas crea costos para verificar y verificar el contenido de cualquier historia que crea una oportunidad. La perspectiva de transformar las empresas de medios en centros de datos confiables se describe en un artículo publicado en febrero de 2011 en Owni.eu y Nieman Lab.

Proceso del periodismo basado en datos

El proceso para transformar datos sin procesar en historias es similar a un refinamiento y transformación. El objetivo principal es extraer información sobre la que los destinatarios puedan actuar. La tarea de un periodista de datos es extraer lo que está oculto. Este enfoque se puede aplicar a casi cualquier contexto, como las finanzas, la salud, el medio ambiente u otras áreas de interés público.

Pirámide invertida del periodismo de datos

En 2011, Paul Bradshaw presentó un modelo, al que llamó "La pirámide invertida del periodismo de datos".

Pasos del proceso

Para lograr esto, el proceso debe dividirse en varios pasos. Si bien los pasos que conducen a los resultados pueden diferir, se puede hacer una distinción básica observando seis fases:

Buscar: búsqueda de datos en la web
Limpiar: Proceso para filtrar y transformar datos, preparación para visualización.
Visualizar: mostrar el patrón, ya sea como una imagen estática o animada
Publicar: integrando las imágenes, adjuntando datos a las historias
Distribuir: habilitar el acceso en una variedad de dispositivos, como la web, tabletas y dispositivos móviles
Medida: seguimiento del uso de historias de datos a lo largo del tiempo y en todo el espectro de usos.

Descripción de los pasos

Encontrar datos

Los datos se pueden obtener directamente de las bases de datos gubernamentales, como data.gov, data.gov.uk y la API de datos del Banco Mundial, pero también mediante la presentación de solicitudes de libertad de información a las agencias gubernamentales; algunas solicitudes se realizan y agregan en sitios web como What Do They Know del Reino Unido. Si bien existe una tendencia mundial hacia la apertura de datos, existen diferencias nacionales en cuanto a la medida en que esa información está disponible gratuitamente en formatos utilizables. Si los datos están en una página web, los raspadores se utilizan para generar una hoja de cálculo. Ejemplos de scrapers son: WebScraper, Import.io, QuickCode, OutWit Hub y Needlebase (retirado en 2012). En otros casos, se puede usar el software OCR para obtener datos de archivos PDF.

Los datos también pueden ser creados por el público a través del crowdsourcing, como se mostró en marzo de 2012 en la Conferencia de Periodismo de Datos en Hamburgo por Henk van Ess.

Limpieza de datos

Por lo general, los datos no están en un formato que sea fácil de visualizar. Los ejemplos son que hay demasiados puntos de datos o que las filas y las columnas deben ordenarse de manera diferente. Otro problema es que, una vez investigados, muchos conjuntos de datos deben limpiarse, estructurarse y transformarse. Varias herramientas como OpenRefine (código abierto), Data Wrangler y Google Spreadsheets permiten cargar, extraer o formatear datos.

Visualización de datos

Para visualizar datos en forma de gráficos y cuadros, se encuentran disponibles aplicaciones como Many Eyes o Tableau Public. yahoo! Pipes y Open Heat Map son ejemplos de herramientas que permiten la creación de mapas basados en hojas de cálculo de datos. El número de opciones y plataformas se está expandiendo. Algunas ofertas nuevas brindan opciones para buscar, mostrar e incrustar datos, por ejemplo, Timetric.

Para crear visualizaciones significativas y relevantes, los periodistas utilizan un número creciente de herramientas. Ya hay varias descripciones de qué buscar y cómo hacerlo. Los artículos publicados más destacados son:

Joel Gunter: "#ijf11: Lecciones de periodismo de datos del New York Times"
Steve Myers: "Using Data Visualization as a Reporting Tool Can Reveal Story's Shape", incluido un enlace a un tutorial de Sarah Cohen

A partir de 2011, el uso de bibliotecas HTML 5 con la etiqueta de lienzo está ganando popularidad. Existen numerosas bibliotecas que permiten graficar datos en una variedad creciente de formas. Un ejemplo es RGraph. A partir de 2011, existe una lista creciente de bibliotecas de JavaScript que permiten visualizar datos.

Historia de datos de publicación

Hay diferentes opciones para publicar datos y visualizaciones. Un enfoque básico es adjuntar los datos a historias individuales, similar a la incrustación de videos web. Los conceptos más avanzados permiten crear expedientes individuales, por ejemplo, para mostrar una serie de visualizaciones, artículos y enlaces a los datos en una página. A menudo, estos especiales deben codificarse individualmente, ya que muchos sistemas de administración de contenido están diseñados para mostrar publicaciones individuales según la fecha de publicación.

Distribuir datos

Proporcionar acceso a los datos existentes es otra fase, que está ganando importancia. Piense en los sitios como "mercados" (comerciales o no), donde otros pueden encontrar fácilmente los conjuntos de datos. Especialmente en el caso de los conocimientos para un artículo que se obtuvo de los datos abiertos, los periodistas deben proporcionar un enlace a los datos que usaron para que otros investiguen (lo que podría iniciar otro ciclo de interrogatorio que conduzca a nuevos conocimientos).

Brindar acceso a los datos y permitir que los grupos discutan qué información podría extraerse es la idea principal detrás de Buzzdata, un sitio que utiliza los conceptos de las redes sociales, como compartir y seguir, para crear una comunidad para las investigaciones de datos.

Otras plataformas (que se pueden utilizar tanto para recopilar como para distribuir datos):

Ayúdame a investigar (creado por Paul Bradshaw)
Temporal
ScraperWiki

Medir el impacto de las historias de datos

Un paso final del proceso es medir la frecuencia con la que se visualiza un conjunto de datos o una visualización.

En el contexto del periodismo basado en datos, el alcance de dicho seguimiento, como la recopilación de datos del usuario o cualquier otra información que pueda usarse con fines de marketing u otros usos fuera del control del usuario, debe considerarse problemático. Una opción más nueva y no intrusiva para medir el uso es un rastreador liviano llamado PixelPing. El rastreador es el resultado de un proyecto de ProPublica y DocumentCloud. Existe un servicio correspondiente para recoger los datos. El software es de código abierto y se puede descargar a través de GitHub.

Ejemplos

Hay una lista creciente de ejemplos de cómo se puede aplicar el periodismo basado en datos. The Guardian, una de las empresas de medios pioneras en este espacio (ver "Periodismo de datos en The Guardian: ¿qué es y cómo lo hacemos?"), ha compilado una extensa lista de historias de datos, ver: "Todos nuestros datos periodismo en una hoja de cálculo".

Otros usos destacados del periodismo basado en datos están relacionados con la publicación por parte de la organización de denunciantes WikiLeaks del Afghan War Diary, un compendio de 91.000 informes militares secretos que cubren la guerra en Afganistán desde 2004 hasta 2010. Tres periódicos globales, a saber, The Guardian, The New York Times y Der Spiegel, dedicaron extensas secciones a los documentos; Los informes de The Guardian incluían un mapa interactivo que señalaba el tipo, la ubicación y las víctimas causadas por 16 000 ataques con artefactos explosivos improvisados. The New York Times publicó una selección de informes que permite pasar el texto subrayado para revelar explicaciones de términos militares.mientras que Der Spiegel proporcionó visualizaciones híbridas (que contenían gráficos y mapas) sobre temas como el número de muertes relacionadas con los ataques con bombas de los insurgentes. Para la publicación de los registros de la guerra de Irak, The Guardian usó Google Fusion Tables para crear un mapa interactivo de cada incidente en el que alguien murió, una técnica que usó nuevamente en los disturbios de Inglaterra de 2011.

Contenido relacionado

Más resultados...