加入收藏 | 设为首页 | 会员中心 | 我要投稿 济源站长网 (https://www.0391zz.cn/)- 数据工具、数据仓库、行业智能、CDN、运营!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

大数据之数据仓库

发布时间:2021-03-05 15:46:25 所属栏目:外闻 来源:互联网
导读:确定建模思路和模型类型之后,下一步的工作是数据分层。数据分层可以使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;同时数据分层也可以简化数据加工处理流程,降低计算复杂度。 我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数

确定建模思路和模型类型之后,下一步的工作是数据分层。数据分层可以使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;同时数据分层也可以简化数据加工处理流程,降低计算复杂度。

我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数据层上下三层结构。由传统的多层结构减少到上下三层结构的目的是为了压缩整体数据处理流程的长度,同时扁平化的数据处理流程有助于数据质量控制和数据运维。

在上下三层的结构的右侧,我们增加了流式数据,将其添加成数据体系的一部分。这是因为当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。

但是,由于流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设;此外,考虑到成本因素,流式数据体系的结构更加扁平化,通常不会设计中间层。

下面来具体看下每一层的具体作用。
 

数据基础层主要完成的工作包括以下几点:

  • 数据采集:把不同数据源的数据统一采集到一个平台上;
  • 数据清洗,清洗不符合质量要求的数据,避免脏数据参与后续数据计算;
  • 数据归类,建立数据目录,在基础层一般按照来源系统和业务域进行分类;
  • 数据结构化,对于半结构化和非结构化的数据,进行结构化;
  • 数据规范化,包括规范维度标识、统一计量单位等规范化操作。

数据中间层

(编辑:济源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读