Integridad de los datos
Integridad de los datos es el mantenimiento y la garantía de la precisión y coherencia de los datos durante todo su ciclo de vida y es un aspecto fundamental para el diseño, la implementación y el uso de cualquier sistema que almacene, procesa o recupera datos. El término tiene un alcance amplio y puede tener significados muy diferentes según el contexto específico, incluso bajo el mismo paraguas general de informática. A veces se utiliza como un término proxy para la calidad de los datos, mientras que la validación de datos es un requisito previo para la integridad de los datos. La integridad de los datos es lo opuesto a la corrupción de datos. La intención general de cualquier técnica de integridad de datos es la misma: garantizar que los datos se registren exactamente como se pretende (como una base de datos que rechace correctamente las posibilidades mutuamente excluyentes). Además, al recuperarlos más tarde, asegúrese de que los datos sean los mismos que cuando se registraron originalmente. En resumen, la integridad de los datos tiene como objetivo evitar cambios no intencionales en la información. La integridad de los datos no debe confundirse con la seguridad de los datos, la disciplina de proteger los datos de terceros no autorizados.
Cualquier cambio no deseado en los datos como resultado de una operación de almacenamiento, recuperación o procesamiento, incluidas las intenciones maliciosas, fallas inesperadas del hardware y errores humanos, es una falla en la integridad de los datos. Si los cambios son el resultado de un acceso no autorizado, también puede ser una falla en la seguridad de los datos. Dependiendo de los datos involucrados, esto podría manifestarse tan benigno como un solo píxel en una imagen que aparece de un color diferente al que se registró originalmente, hasta la pérdida de imágenes de vacaciones o una base de datos crítica para el negocio, hasta la pérdida catastrófica de vidas humanas en una vida. -sistema crítico.
Tipos de integridad
Integridad física
La integridad física se ocupa de los desafíos asociados con el almacenamiento y la obtención correctos de los datos en sí. Los desafíos con la integridad física pueden incluir fallas electromecánicas, fallas de diseño, fatiga del material, corrosión, cortes de energía, desastres naturales y otros peligros ambientales especiales, como radiación ionizante, temperaturas extremas, presiones y fuerzas g. Garantizar la integridad física incluye métodos como hardware redundante, una fuente de alimentación ininterrumpida, ciertos tipos de arreglos RAID, chips resistentes a la radiación, memoria de corrección de errores, uso de un sistema de archivos en clúster, uso de sistemas de archivos que emplean sumas de verificación a nivel de bloque como ZFS, almacenamiento arreglos que calculan cálculos de paridad como exclusivos o usan una función hash criptográfica e incluso tienen un temporizador de vigilancia en subsistemas críticos.
La integridad física a menudo hace un uso extensivo de algoritmos de detección de errores conocidos como códigos de corrección de errores. Los errores de integridad de datos inducidos por humanos a menudo se detectan mediante el uso de controles y algoritmos más simples, como el algoritmo Damm o el algoritmo Luhn. Estos se utilizan para mantener la integridad de los datos después de la transcripción manual de un sistema informático a otro por un intermediario humano (por ejemplo, números de ruta bancaria o de tarjeta de crédito). Los errores de transcripción inducidos por computadora se pueden detectar a través de funciones hash.
En los sistemas de producción, estas técnicas se utilizan juntas para garantizar varios grados de integridad de los datos. Por ejemplo, un sistema de archivos de computadora puede configurarse en una matriz RAID tolerante a fallas, pero es posible que no proporcione sumas de verificación a nivel de bloque para detectar y evitar la corrupción silenciosa de datos. Como otro ejemplo, un sistema de administración de base de datos puede cumplir con las propiedades ACID, pero el controlador RAID o la caché de escritura interna de la unidad de disco duro pueden no serlo.
Integridad lógica
Este tipo de integridad tiene que ver con la corrección o racionalidad de un dato, dado un contexto particular. Esto incluye temas como la integridad referencial y la integridad de la entidad en una base de datos relacional o ignorar correctamente datos de sensores imposibles en sistemas robóticos. Estas preocupaciones implican garantizar que los datos "tengan sentido" dado su entorno. Los desafíos incluyen errores de software, fallas de diseño y errores humanos. Los métodos comunes para garantizar la integridad lógica incluyen cosas como restricciones de verificación, restricciones de clave externa, aserciones de programa y otras verificaciones de cordura en tiempo de ejecución.
Tanto la integridad física como la lógica a menudo comparten muchos desafíos comunes, como errores humanos y fallas de diseño, y ambas deben tratar adecuadamente las solicitudes simultáneas para registrar y recuperar datos, la última de las cuales es un tema por sí solo.
Si un sector de datos solo tiene un error lógico, se puede reutilizar sobrescribiéndolo con datos nuevos. En caso de un error físico, el sector de datos afectado queda permanentemente inutilizable.
Bases de datos
La integridad de los datos contiene pautas para la retención de datos, que especifican o garantizan el tiempo que se pueden retener los datos en una base de datos en particular. Para lograr la integridad de los datos, estas reglas se aplican de manera consistente y rutinaria a todos los datos que ingresan al sistema, y cualquier relajación en la aplicación podría causar errores en los datos. La implementación de controles en los datos lo más cerca posible de la fuente de entrada (como la entrada de datos humanos), hace que entren menos datos erróneos en el sistema. La aplicación estricta de las reglas de integridad de datos da como resultado tasas de error más bajas y ahorra tiempo en la resolución de problemas y el seguimiento de datos erróneos y los errores que causa en los algoritmos.
La integridad de los datos también incluye reglas que definen las relaciones que un dato puede tener con otros datos, como un registro de Cliente que puede vincularse a Productos comprados, pero no a datos no relacionados como activos corporativos. La integridad de los datos a menudo incluye comprobaciones y correcciones de datos no válidos, en función de un esquema fijo o un conjunto predefinido de reglas. Un ejemplo son los datos textuales ingresados donde se requiere un valor de fecha y hora. También se aplican reglas para la derivación de datos, que especifican cómo se deriva un valor de datos en función del algoritmo, los contribuyentes y las condiciones. También especifica las condiciones sobre cómo se podría volver a derivar el valor de los datos.
Tipos de restricciones de integridad
La integridad de los datos normalmente se impone en un sistema de base de datos mediante una serie de restricciones o reglas de integridad. Tres tipos de restricciones de integridad son una parte inherente del modelo de datos relacionales: integridad de entidad, integridad referencial e integridad de dominio.
- Integridad de la Entidad se refiere al concepto de una clave primaria. La integridad de la Entidad es una regla de integridad que establece que cada tabla debe tener una clave primaria y que la columna o columnas elegidas para ser la clave primaria debe ser única y no nula.
- Integridad se refiere al concepto de una llave extranjera. La regla de integridad referential establece que cualquier valor clave-extraterno sólo puede estar en uno de los dos estados. El estado habitual de los asuntos es que el valor de las teclas extranjeras se refiere a un valor clave primario de una tabla en la base de datos. De vez en cuando, y esto dependerá de las reglas del propietario de los datos, un valor extranjero-key puede ser nulo. En este caso, estamos diciendo explícitamente que no hay relación entre los objetos representados en la base de datos o que esta relación sea desconocida.
- Integridad del dominio especifica que todas las columnas en una base de datos relacional deben ser declaradas en un dominio definido. La unidad primaria de datos en el modelo de datos relacionales es el elemento de datos. Se dice que tales datos no son incomponibles o atómicas. Un dominio es un conjunto de valores del mismo tipo. Por lo tanto, los dominios son conjuntos de valores de los cuales se dibujan valores reales que aparecen en las columnas de una tabla.
- Integridad definida por el usuario se refiere a un conjunto de reglas especificadas por un usuario, que no pertenecen a la entidad, dominio y categorías de integridad referencial.
Si una base de datos admite estas funciones, es responsabilidad de la base de datos garantizar la integridad de los datos, así como el modelo de coherencia para el almacenamiento y la recuperación de datos. Si una base de datos no admite estas funciones, es responsabilidad de las aplicaciones garantizar la integridad de los datos mientras la base de datos admite el modelo de coherencia para el almacenamiento y la recuperación de datos.
Tener un sistema de integridad de datos único, bien controlado y bien definido aumenta
- estabilidad (un sistema centralizado realiza todas las operaciones de integridad de datos)
- rendimiento (todas las operaciones de integridad de datos se realizan en el mismo nivel que el modelo de consistencia)
- reutilización (todas las aplicaciones se benefician de un único sistema centralizado de integridad de datos)
- mantenimiento (un sistema centralizado para toda la administración de la integridad de los datos).
Las bases de datos modernas admiten estas funciones (consulte Comparación de sistemas de administración de bases de datos relacionales) y se ha convertido en responsabilidad de facto de la base de datos garantizar la integridad de los datos. Las empresas, y de hecho muchos sistemas de bases de datos, ofrecen productos y servicios para migrar sistemas heredados a bases de datos modernas.
Ejemplos
Un ejemplo de un mecanismo de integridad de datos es la relación padre-hijo de registros relacionados. Si un registro principal posee uno o más registros secundarios relacionados, todos los procesos de integridad referencial son manejados por la propia base de datos, lo que garantiza automáticamente la precisión e integridad de los datos para que ningún registro secundario pueda existir sin un registro principal (también llamado huérfano) y que ningún padre pierda los registros de su hijo. También garantiza que no se pueda eliminar ningún registro principal mientras el registro principal sea propietario de cualquier registro secundario. Todo esto se maneja a nivel de base de datos y no requiere controles de integridad de codificación en cada aplicación.
Sistemas de archivos
Varios resultados de investigación muestran que ni los sistemas de archivos generalizados (incluidos UFS, Ext, XFS, JFS y NTFS) ni las soluciones RAID de hardware brindan suficiente protección contra los problemas de integridad de datos.
Algunos sistemas de archivos (incluidos Btrfs y ZFS) proporcionan una suma de verificación interna de datos y metadatos que se utiliza para detectar la corrupción silenciosa de datos y mejorar la integridad de los datos. Si se detecta una corrupción de esa manera y también se utilizan los mecanismos RAID internos proporcionados por esos sistemas de archivos, dichos sistemas de archivos pueden reconstruir adicionalmente los datos dañados de manera transparente. Este enfoque permite una mejor protección de la integridad de los datos que cubre todas las rutas de datos, lo que generalmente se conoce como protección de datos de extremo a extremo.
Integridad de datos aplicada a varias industrias
- La Administración de Alimentos y Medicamentos de EE.UU. ha creado un proyecto de guía sobre la integridad de los datos para los fabricantes farmacéuticos requeridos para adherirse al Código Federal de Regulaciones 21 CFR Parts 210–212. Fuera de los Estados Unidos, el Reino Unido (2015), Suiza (2016) y Australia (2017) han publicado orientaciones similares sobre la integridad de los datos.
- Varios estándares para la fabricación de dispositivos médicos abordan la integridad de los datos directa o indirectamente, incluyendo ISO 13485, ISO 14155 e ISO 5840.
- A principios de 2017, la Autoridad Reguladora de la Industria Financiera (FINRA), señalando problemas de integridad de datos con sistemas automatizados de vigilancia del comercio y del movimiento monetario, afirmó que "el desarrollo de un programa de integridad de datos para supervisar la exactitud de los datos presentados" sería una prioridad. A principios de 2018, FINRA dijo que ampliaría su enfoque sobre la integridad de los datos a las "políticas y procedimientos de gestión del cambio tecnológico" de las empresas y revisiones de valores del Tesoro.
- Otros sectores como la minería y la fabricación de productos se centran cada vez más en la importancia de la integridad de los datos en los activos asociados de automatización y vigilancia de la producción.
- Los proveedores de almacenamiento en la nube han enfrentado durante mucho tiempo retos importantes que aseguran la integridad o procedencia de los datos de los clientes y las violaciones del seguimiento.
Contenido relacionado
Agrietamiento
Telecomunicaciones en Bulgaria
Binario