展会信息港展会大全

微软披露最新云数据仓库技术细节:采用MPP架构、支持PB级数据
来源:互联网   发布日期:2015-7-13   浏览:1115次  

导读:在微软的云中,我们也将看到MPP数据仓库的身影。 据了解,微软将在Azure云平台上发布一款大规模并行处理(MPP)数据仓库,并命名为Azure SQL DataWarehouse。MPP可以通过将数据分布到各个计算节点中,来解决海量数据处理难题。在此之前,MPP数据 ......

在微软的云中,我们也将看到MPP数据仓库的身影。

据了解,微软将在Azure云平台上发布一款大规模并行处理(MPP)数据仓库,并命名为Azure SQL DataWarehouse。MPP可以通过将数据分布到各个计算节点中,来解决海量数据处理难题。在此之前,MPP数据仓库往往只能部署在企业内部数据中心,而微软发布Azure SQL Data Warehouse则意味着将MPP能力推向云端。

目前,Azure SQL Data Warehouse仍处于测试阶段。参与了beta项目的数据库咨询顾问Denny Cherry向云时代记者表示,云端的大规模并行处理是一项新的技术,这也将是微软云数据仓库最大的亮点。而全程参与该项目并第一时间试用了有限预览版的Denny Cherry认为,SQL Azure技术正在经历“成长的烦恼”。

“微软希望能够为用户提供真正可用的产品,他们每周都会发布新的更新包来努力将MPP技术推向云端。但目前为止,beta测试的产品还是有不少问题,比如需要重启数据仓库才能进入新的版本。”DennyCherry说。

AzureSQL Data Warehouse是一个PB级的数据仓库服务,它支持分布式架构并采用了全托管的模式,可以根据客户的需求自由地扩展伸缩。它可以与发布的SQL Server 2016紧密集成。由于Azure SQL Data Warehouse在AnalyticsPlatform System基础上采用了并行处理架构,因此它可以与其他微软生态系统中的产品与服务兼容。Azure SQL DataWarehouse目前仍在beta测试阶段,微软并没有给出具体的发布日程表。但微软已经在6月底发布了一个Azure SQL Data Warehouse的有限公共预览版本。

目前这个预览版只对一小部分客户开放,而随着越来越多的新客户注册Azure来申请试用Azure SQL Data Warehouse,微软也将发放更多预览账号。作为微软Early Access Program的成员之一,Denny Cherry已经使用了Azure SQL Data Warehouse两个月时间。他还帮助两个零售业客户进行了概念验证(poc)测试。

由于零售企业对大规模数据仓库以及在此基础上的BI和数据分析应用非常熟悉,且需求巨大,Denny Cherry十分看好Azure SQL DataWarehouse在零售业的应用前景。他表示,分析客户的长期购买行为对零售业的成功至关重要,由于BI和大数据分析在零售业的应用从很早以前就已经开始了,所以这个领域的公司都希望能够以更低的成本和更快的速度来分析数据。

对于早期的测试用户,他们也在第一时间接触到了除MPP之外的一些新功能。微软宣称,Azure SQL Data Warehouse是业界首个企业级的云数据仓库服务,它能够进行秒级的扩展,具备极佳的弹性。在Azure SQL DataWarehouse中,数据和计算的扩展是独立的,系统使用Data Warehouse Units(DWU)作为一个基础单元来衡量使用中的节点规模。因此,如需更快的查询速度,你只需要购买更多DWU就可以了。反之,如果计算资源过剩,你还可以减少DWU的数量。Azure SQL DataWarehouse按照DWU的数量收费,对企业来说这是非常大的成本节约。

此外,当你不需要运行查询或使用计算资源的时候,你可以在任意时间里暂停节点并移除所有分配给Azure SQL DataWarehouse 的DWU,但数据存储还可以继续提供服务。由于暂停的时候DWU不再分配给数据仓库,因此就不需要再为它们付费。也正是由于这个扩展性,Danny Cherry认为Azure SQL Data Warehouse最棒的一点就是它适合各种规模的企业。你需要做的,只是在Azure SQL DataWarehouse的门户中调整DWU的数量。

列存储索引同样是活的更快查询速度的关键。数据仓库查询特别适合列存储索引,因为它们往往需要扫描整张表,而列存储索引会把这个过程做到最快。另外,列存储索引相比于传统索引能够提供5倍以上的数据压缩效果和10倍以上的性能提升。

由于Azure SQL Data Warehouse是基于SQL Server关系型数据库引擎的,因此它支持存储过程、用户定义函数、表分区、索引和排序规则。更为关键的是,你还可以使用Transact-SQL(T-SQL)对数据库进行操作,这对许多用户来说是最大的福音。

此外,Azure SQL Data Warehouse包含了PolyBase功能,这是一个SQL on Hadoop技术,它能够查询并导入存储在Azure BLOB和HDFS中的非关系型数据。此外,它使用标准化的SQL Server T-SQL命令,而不是Hadoop语言。由于PolyBase使用外部表来访问非关系型数据,所以表定义会存储在Azure SQL DataWarehouse之中,而真正的数据还是放在Azure BLOB存储和HDFS中。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

赞助本站

人工智能实验室

相关热词:

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港