免责声明

易百易数码科技

数据资源目录标准,数据分布式存储规则是什么

数据资源目录标准

这个数据资源目录标准是指对数据资源进行分类、编目、管理的标准。例如,政务信息资源目录按资源属性分为基础信息资源目录、主题信息资源目录、部门信息资源目录等三种类型。此外,政务数据资源目录体系包括职责目录、数据目录、库表目录等,三者之间存在对应关系。

企业数据目录(EDC)旨在帮助企业与IT人员通过统一的元数据视图(包括技术元数据、业务元数据、用户释义、关联关系、数据质量和用途)来释放企业数据资产的最大能量。

数据资源目录标准,数据分布式存储规则是什么-图1

我们从下至上来看下EDC的一个架构,最下面是存储层,在这一层,EDC包含了传统的结构化数据库用来存储EDC的管理员数据、可视化配置数据、数据域的规则,runtime统计数据等等,其中一部分结构化数据来自于各接入应用的元数据,称为模型库服务(Model Repository Service,MRS)使所有接入的应用可以在一个关系型数据库中进行协同;另一部分结构化数据称为数据剖析仓库(Profiling Warehouse,PWH),用来存储数据剖析信息,例如剖析结果和计分卡结果。在存储层EDC也可以接入各种非结构化数据,例如Hadoop分布式存储系统以及其上的HBASE等开源产品。

往上一层,对于接入的结构化数据的数据源,有剖析引擎(Data Profiling Engine)对数据集的唯一性,特征值频率以及数据集所属的数据域进行分析;在另一边Hadoop社区有自己的分布式引擎系统,例如用来快速将各类元数据加载到HBase的Spark组件,以及支持多条件搜索并建立实时索引的Solr组件。

所有的数据处理都是为了能提供数据服务,最通用的不外乎搜索,包括数据间关系、血缘的搜索,数据域的搜索。还有就是生成报表作业的管理计划。除了直接对外提供服务外,这一层还有一些插件对数据进行进一步加工,例如对跨数据集的数据相似性进行比较的分析器,对数据集进行到数据域的归集,以及将非结构化元数据导入到HBase的摄入服务。最终服务层有统一的对外API接口将数据域转化成数据目录作为EDC的主体。

数据资源目录标准,数据分布式存储规则是什么-图2

分布式存储如何实现永久存储

有些分布式存储是数据落盘的,也就是持久化的,具体方式要看选择哪个分布式存储方案

对象存储和分布式存储的区别

区别在于指向不同,形式不同等,对象存储是指桌面存储分对象类别的存储法,而分布式存储是另一种存储形式,二者有联系有区别

对象存储,通常与块存储、文件存储并提。

数据资源目录标准,数据分布式存储规则是什么-图3

按照存储接口的不同,存储的应用场景可分为对象存储、块存储、文件存储三种。

块存储的主要操作对象是磁盘,DAS和SAN都是块存储类型。

文件存储的主要操作对象是文件和文件夹,对应NAS产品。

对象存储主要操作对象是Object,兼具了SAN高速直接访问磁盘和NAS分布式共享特点。采用键值存储,将数据读写通路和元数据分离,基于对象存储设备构建存储系统。

到此,以上就是小编对于数据分布式存储规则是什么的问题就介绍到这了,希望介绍的3点解答对大家有用,有任何问题和不懂的,欢迎各位老师在评论区讨论,给我留言。

分享:
扫描分享到社交APP
上一篇
下一篇