Esquema de estrella

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Data warehousing schema

En informática, el esquema en estrella o modelo en estrella es el estilo más simple de esquema de data mart y es el enfoque más utilizado para desarrollar almacenes de datos y data marts dimensionales. El esquema en estrella consta de una o más tablas de hechos que hacen referencia a cualquier número de tablas de dimensiones. El esquema en estrella es un caso especial importante del esquema en copo de nieve y es más eficaz para manejar consultas más simples.

El esquema de estrella recibe su nombre por la semejanza del modelo físico con una forma de estrella con una tabla de hechos en el centro y las tablas de dimensiones a su alrededor que representan los puntos de la estrella.

Modelo

El esquema en estrella separa los datos de los procesos de negocio en hechos, que contienen datos cuantitativos mensurables sobre un negocio, y dimensiones, que son atributos descriptivos relacionados con los datos de hechos. Ejemplos de datos factuales incluyen el precio de venta, la cantidad de venta y las mediciones de tiempo, distancia, velocidad y peso. Los ejemplos de atributos de dimensión relacionados incluyen modelos de productos, colores de productos, tamaños de productos, ubicaciones geográficas y nombres de vendedores.

Un esquema de estrella que tiene muchas dimensiones a veces se denomina esquema de ciempiés. Tener dimensiones de sólo unos pocos atributos, si bien es más sencillo de mantener, genera consultas con muchas combinaciones de tablas y hace que el esquema en estrella sea menos fácil de usar.

Tablas de hechos

Las tablas de hechos registran medidas o métricas para un evento específico. Las tablas de hechos generalmente constan de valores numéricos y claves externas para datos dimensionales donde se guarda la información descriptiva. Las tablas de hechos están diseñadas con un bajo nivel de detalle uniforme (lo que se conoce como "granularidad" o "granularidad"), lo que significa que los hechos pueden registrar eventos a un nivel muy atómico. Esto puede dar como resultado la acumulación de una gran cantidad de registros en una tabla de hechos a lo largo del tiempo. Las tablas de hechos se definen como uno de tres tipos:

  • Tablas de datos de transacciones registran hechos sobre un evento específico (por ejemplo, eventos de ventas)
  • Tablas de datos instantáneas registran hechos en un momento dado (por ejemplo, detalles de la cuenta al final del mes)
  • La acumulación de tablas de instantáneas registra datos agregados en un momento determinado (por ejemplo, ventas totales por mes para un producto)

Las tablas de datos generalmente se asignan una llave sustituta para asegurar que cada fila se pueda identificar de forma única. Esta clave es una simple clave primaria.

Tablas de dimensión

Las tablas de dimensión generalmente tienen un número relativamente pequeño de registros en comparación con las tablas de hechos, pero cada registro puede tener un número muy grande de atributos para describir los datos de hecho. Dimensiones pueden definir una amplia variedad de características, pero algunos de los atributos más comunes definidos por tablas de dimensión incluyen:

  • Tablas de dimensiones del tiempo describen el tiempo al nivel más bajo de la granularidad del tiempo para qué eventos se registran en el esquema estrella
  • Las tablas de dimensiones de la geografía describen datos de ubicación, como país, estado o ciudad
  • Tablas de dimensión de producto describen productos
  • Las tablas de dimensión de los empleados describen a empleados, como las personas de ventas
  • Tablas de dimensiones de rango describen rangos de tiempo, valores de dólar u otras cantidades mensurables para simplificar la presentación de informes

A las tablas de dimensiones generalmente se les asigna una clave primaria sustituta, generalmente un tipo de datos entero de una sola columna, asignada a la combinación de atributos de dimensión que forman la clave natural.

Beneficios

Los esquemas en estrella están desnormalizados, lo que significa que las reglas típicas de normalización aplicadas a las bases de datos relacionales transaccionales se relajan durante el diseño e implementación del esquema en estrella. Los beneficios de la desnormalización del esquema en estrella son:

  • Consultas más simples – Star-schema join-logic es generalmente más simple que la lógica de unión requerida para recuperar datos de un esquema transaccional altamente normalizado.
  • Simplified business reporting logic – cuando se compara con esquemas altamente normalizados, el esquema estrella simplifica la lógica común de la presentación de informes de negocios, como el período-sobre-período y la presentación de informes.
  • Ganancias de rendimiento de las consultas – los esquemas estrella pueden proporcionar mejoras de rendimiento para aplicaciones de presentación de informes sólo lectura cuando se comparan con esquemas altamente normalizados.
  • Las agregaciones rápidas – las consultas más simples contra un esquema estrella pueden resultar en un rendimiento mejorado para las operaciones de agregación.
  • Cubos de alimentación – esquemas de estrellas son utilizados por todos los sistemas OLAP para construir cubos OLAP propietarios de manera eficiente; de hecho, la mayoría de los principales sistemas OLAP proporcionan un modo de operación ROLAP que puede utilizar un esquema estrella directamente como fuente sin construir una estructura de cubo patentada.

Ejemplo

Star schema utilizado por ejemplo query

Considere una base de datos de ventas, quizás de una cadena de tiendas, clasificadas por fecha, tienda y producto. La imagen del esquema de la derecha es una versión del esquema en estrella del esquema de muestra proporcionado en el artículo del esquema de copo de nieve.

Fact_Sales es la tabla de hechos y hay tres tablas de dimensiones Dim_Date, Dim_Store y Dim_Product.

Cada tabla de dimensiones tiene una clave principal en su columna Id, relacionada con una de las columnas (vistas como filas en el esquema de ejemplo) de la tabla Fact_Sales&#39 La clave principal de tres columnas (compuesta) (Date_Id, Store_Id, Product_Id). La columna de clave no principal Units_Sold de la tabla de hechos en este ejemplo representa una medida o métrica que se puede utilizar en cálculos y análisis. Las columnas de clave no principal de las tablas de dimensiones representan atributos adicionales de las dimensiones (como el Año de la dimensión Dim_Date).

Por ejemplo, la siguiente consulta responde cuántos televisores se vendieron, para cada marca y país, en 1997:

SELECTP.Marca,S.País ASÍ Países,SUM()F.Units_Sold)DESDE Fact_Sales FINNER Únete Dim_Date D ON ()F.Date_Id = D.Id)INNER Únete Dim_Store S ON ()F.Store_Id = S.Id)INNER Únete Dim_Product P ON ()F.Product_Id = P.Id)Donde D.Año = 1997 Y P.Producto_Categoría = 'tv 'GROUP BYP.Marca,S.País

Contenido relacionado

Spl (Unix)

spl es el nombre de una colección de rutinas o macros del kernel de Unix utilizadas. para cambiar el nivel de prioridad de interrupción. Históricamente...

Encuadernación tardía

En informática, el enlace tardío o enlace dinámico es un mecanismo de programación informática en el que el método que se invoca en un objeto, o la...

Tabla de métodos virtuales

En programación informática, una tabla de métodos virtuales una tabla de funciones virtuales, una tabla de llamadas virtuales , tabla de despacho, vtable o...

ALGOL Y

ALGOL Y fue el nombre dado a un sucesor especulado del lenguaje de programación ALGOL 60 que incorporaba algunas características radicales que fueron...

Alma-0

Alma-0 es un lenguaje de programación informática multiparadigma. Este lenguaje es una versión aumentada del lenguaje imperativo Modula-2 con...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save