Datos semiestructurados

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Los datos semiestructurados son un tipo de datos estructurados que no siguen la estructura tabular de los modelos de datos asociados con bases de datos relacionales u otros tipos de tablas de datos, pero que contienen etiquetas u otros marcadores para separar elementos semánticos y establecer jerarquías de registros y campos dentro de los datos. Por lo tanto, también se conocen como estructuras autodescriptivas.En datos semiestructurados, las entidades que pertenecen a la misma clase pueden tener atributos diferentes aunque estén agrupadas, y el orden de los atributos no es importante.Los datos semiestructurados son cada vez más comunes desde la llegada de Internet, donde los documentos de texto completo y las bases de datos ya no son las únicas formas de datos, y las diferentes aplicaciones necesitan un medio para intercambiar información. En las bases de datos orientadas a objetos, es frecuente encontrar datos semiestructurados.

Tipos

XML

XML, otros lenguajes de marcado, el correo electrónico y el EDI son formas de datos semiestructurados. El OEM (Modelo de Intercambio de Objetos) se creó antes que XML como una forma de autodescribir una estructura de datos. XML se ha popularizado gracias a los servicios web desarrollados con principios SOAP.Algunos tipos de datos descritos aquí como "semiestructurados", especialmente XML, dan la impresión de ser incapaces de alcanzar el mismo rigor estructural funcional que las tablas y filas relacionales. De hecho, la visión de XML como inherentemente semiestructurado (anteriormente, se denominaba "no estructurado") ha limitado su uso en una gama cada vez mayor de aplicaciones centradas en datos. Incluso los documentos, normalmente considerados el epítome de la semiestructura, pueden diseñarse con prácticamente el mismo rigor que un esquema de base de datos, implementados por el esquema XML y procesados por programas de software comerciales y personalizados sin reducir su usabilidad para los lectores humanos.En vista de este hecho, se podría decir que XML tiene una "estructura flexible", capaz de un flujo y una jerarquía centrados en el usuario, así como una estructura de elementos y una tipificación de datos altamente rigurosas.Sin embargo, el concepto de XML como "legible para humanos" tiene sus límites. Algunas implementaciones/dialectos de XML, como la representación XML del contenido de un documento de Microsoft Word, tal como se implementó en Office 2007 y versiones posteriores, utilizan docenas o incluso cientos de tipos de etiquetas que reflejan un dominio problemático específico (en el caso de Word, el formato a nivel de carácter, párrafo y documento, las definiciones de estilos, la inclusión de citas, etc.), las cuales se anidan entre sí de forma compleja. Comprender incluso una parte de un documento XML de este tipo mediante su lectura, y mucho menos detectar errores en su estructura, es imposible sin un conocimiento previo profundo de la implementación XML específica, junto con la ayuda de un software que comprenda el esquema XML empleado. Dicho texto no es "legible para humanos". No más de lo que lo sería un libro escrito en suajili (que usa el alfabeto latino) para un estadounidense o un europeo occidental que no conozca una palabra de ese idioma: las etiquetas son símbolos que carecen de significado para una persona que no está familiarizada con el dominio.

JSON

JSON, o Notación de Objetos JavaScript, es un formato estándar abierto que utiliza texto legible para transmitir objetos de datos. JSON se ha popularizado gracias a los servicios web desarrollados con principios REST. JSONBases de datos como MongoDB y Couchbase almacenan datos de forma nativa en formato JSON, aprovechando las ventajas de la arquitectura de datos semiestructurada.

Pros and cons

Ventajas

Los programadores que persisten objetos de su aplicación a una base de datos no necesitan preocuparse por el desajuste de la impedancia relacionada con objetos, pero a menudo pueden serializar objetos a través de una biblioteca ligera.
El soporte para datos anidados o jerárquicos a menudo simplifica los modelos de datos que representan relaciones complejas entre entidades.
Soporte para listas de objetos simplifica los modelos de datos evitando traducciones desordenadas de listas en un modelo de datos relacional.

Desventajas

El modelo tradicional de datos relacionales tiene un lenguaje de consulta popular y listo, SQL.
Prone to "garbage in, waste out"; by removing restraints from the data model, there is less forethought that is necessary to operate a data application.

Modelo semiestructurado

El modelo semiestructurado es un modelo de base de datos donde no hay separación entre los datos y el esquema, y la cantidad de estructura utilizada depende del propósito.Las ventajas de este modelo son las siguientes:

Puede representar la información de algunas fuentes de datos que no pueden ser limitadas por el esquema.
Proporciona un formato flexible para el intercambio de datos entre diferentes tipos de bases de datos.
Puede ser útil ver los datos estructurados como semiestructurados (para fines de navegación).
El esquema se puede cambiar fácilmente.
El formato de transferencia de datos puede ser portátil.

La principal desventaja de usar un modelo de base de datos semiestructurada es que las consultas no se pueden realizar con la misma eficiencia que en una estructura más restringida, como el modelo relacional. Normalmente, los registros de una base de datos semiestructurada se almacenan con identificadores únicos que se referencian mediante punteros a su ubicación en el disco. Esto hace que las consultas de navegación o basadas en rutas sean bastante eficientes, pero para realizar búsquedas en muchos registros (como es habitual en SQL), no son tan eficientes porque deben buscar en el disco siguiendo punteros.El Modelo de Intercambio de Objetos (OEM) es un estándar para expresar datos semiestructurados; otra forma es XML.

Véase también

NoSQL
Datos no estructurados
Datos estructurados

Referencias

^ Peter Buneman (1997). "Datos semiestructurados" (PDF). Simposio sobre principios de sistemas de bases de datos.
^ El grupo de base de datos Penn tiene un proyecto de datos semiestructurados y XML
^ Stanford Universities Lore DBMS

Enlaces externos

Grupo de base de datos de UPenn – datos semiestructurados y XML
Análisis de datos semi-structured: ¿La plataforma de Relación o Hadoop? por IBM

Más resultados...