软考
APP下载

数据仓库的定义和分类

数据仓库(Data Warehouse,DW)是现代企业对海量业务数据进行集成、存储、管理和分析的最佳实践。它是一种面向主题的、集成的、稳定的、非易失的数据集合,用于支持管理决策。数据仓库能够帮助企业更加深入地了解自己的运营情况,从而在业务决策、战略制定等方面提供有力的支持。

数据仓库的分类

从数据来源和集成角度,数据仓库可分为企业级和部门级两类。

企业级数据仓库(Enterprise Data Warehouse,EDW)是一种全企业范围内的数据仓库系统,它从公司所有部门中集成数据,提供一个一致的企业级数据视图,以支持全企业的决策需求。EDW一般使用集中式架构进行设计,具有高度的规范化和一致性,具备数据质量管理能力,能够支持复杂分析。

部门级数据仓库(Departmental Data Warehouse,DDW)是一种为特定部门或业务功能所设计的数据仓库系统,以满足特定业务需求的数据分析要求。DDW设计具有更强的可扩展性和灵活性,他们以单一主题为中心,遵循维度建模原则,将决策支持数据与业务过程紧密衔接。

从数据存储方式角度,数据仓库可以分为经典型和云型两类。

经典型数据仓库部署在企业自己的数据中心,公司需要投资购买硬件、软件、数据库、存储等设施,部署一支专业的IT团队来运行、维护和升级,因此,经典数据仓库的部署成本较高。

云型数据仓库架构利用了云计算的优势,以服务(SaaS)的方式提供数据仓库解决方案。它可以提供弹性资源分配,按需分配存储容量和计算能力,提高响应速度,降低运维成本,并提供更高可用性和可扩展性。

数据仓库存储体系架构从适用场景地角度,分为传统型和大数据型两种。

传统型数据仓库通常由关系数据库和SQL语言组成,用于存储小批量、简单结构、相对静态的数据。传统型数据仓库的优势在于数据结构清晰,查询速度快,分析性能高,并且易于管理。然而,他们的扩展性受到硬件限制,跨部门协作不够便捷,数据湖接入不易实现。

大数据型数据仓库则是利用Apache Hadoop等分布式计算框架来构建。它适用于大量、非结构化、半结构化、实时产生的数据,支持大规模数据存储、批处理和实时处理,并能够处理不同数据源的连接和数据结构的不匹配。

本文提到的四种分法,只是从某一方面对“数据仓库”进行了分类。实际上,数据仓库体系结构多样,修改折中,因为每个企业在应用数据仓库时都有不同的需求,不同的业务规则,不同的数据源和不同的架构。因此,数据仓库部署之前,建议进行充分的业务和技术评估,充分考虑各种方案的优缺点和局限性,从而确保一个最佳的数据架构。

备考资料 免费领取:系统分析师报考指南+考情分析+思维导图等 立即下载
真题演练 精准解析历年真题,助你高效备考! 立即做题
相关阅读
系统分析师题库