跟小D每日学口语

微软SQL Server2012增长对Hadoop的支撑

名人名言:有的人自认为会做一些事情,实际上他们什么都不会,只是什么都懂一点而已。对于什么都不需要的人,他们什么都愿意出借,而对真正需要的人,却什么也不拿出来;另一些人悄悄审度着别人的思想,而将自己的金钱及疯狂的举动都高利放出去。有的人你再也得不到如实的印象,他们的心灵,就像一面使用过久已不光滑的镜子,再也映照不出任何形象;另一些人,对他们的感官和生命都格外节俭,表面上则装出舍弃生命的样子,就像有人随意将性命从窗户抛掷出去一样。——巴尔扎克 

今天去听了微软的SQL Server2012公布预览会,据说到Hadoop的支撑。在海量数据时代的大趋势下,微软增长了SQL Server大范围数据处理惩罚和并行数据仓库平台对开源Hadoop框架的支撑。

大数据的泡沫在毫无尽头的膨胀,它给IT企业带来了倾覆性的改革。 Hortonworks的CEO Eric Baldeschwieler默示,今朝企业中80%的数据长短布局化数据。更为雷人的是这些数据在以60%的速度浮现指数级增长,到2020年,全球数据应用量估计将暴增44倍,达到35.2ZB(1ZB=10亿TB)。大数据的急剧伸展使得企业在存储架构方面逐渐面对着史无前例的考验,由此激发了数据仓库、数据发掘、贸易智能、云策画等应用的连续串连锁反响。

  据最新消息,微软正在研发一种连接器,即Excel用户能接见Hadoop大数据处理惩罚成果。而Hortonworks欲望把它变成NoSQL到SQL的的通用连接器,在开源社区推而广之。

大数据膨胀催生了微软等巨擘纷繁拥抱Hadoop

  各大企业巨擘纷繁有所步履,雅虎、AOL、谷歌、Facebook等早期采取并应用Hadoop来存储和解析PB级此外非布局化数据。IBM也在在 SmartCloud 平台上新增基于 Apache Hadoop 的办事 InfoSphere BigInsights 解析软件。Oracle的Big Data机采取了NoSQL数据库和Hadoop框架。EMC也推出了世界上第一个定制的、高机能的Hadoop专用数据协同处理惩罚设备——Greenplum HD数据策画设备。Google 的收集搜刮引擎在得益于算法阐扬感化的同时,Hadoop的核心MapReduce 在后台阐扬了极大的感化。亿贝的Hadoop体系可以或许很好地处理惩罚大范围非布局化数据,高效处理惩罚用户邮件数据。

Hadoop核心框架MapReduce工作道理

  与各大巨擘比拟,微软更是耐不住寂寞,它与Hortonworks杀青合作,致力于将Hadoop打造成用于存储和处理惩罚数据的惹人注目标平台。Windows和Hadoop的连络将是很是具有吸引力的,这将吸引多量的Windows用户。显然微软具有在此范畴竞争的实力,优化和调剂是确保其成功的首要身分。

微软及锋而试 络续强化开源Hadoop框架的支撑

  大数据的海潮一浪高过一浪,企业厮杀比赛更加激烈,微软迈出的法度似乎更快,发力更猛。Hadoop可谓是开源创新范畴的精采典范,微软对Hadoop的支撑更应当被看作极具转折式的决定计划。

  起首,早在2006年起微软就及锋而试,致力于研发某种很是类似于Hadoop的项目,被称为“Dryad”。

  2011年年初,该规划经由过程与SQL Server和Windows Azure云的集成实现了Dryad的产品化。固然如今微软还没有更新,但看上去Dryad似乎将成为在SQL Server平台上影响大数据爱好者的有力竞争者。

  其次,微软早在2011年3月份就公布了数据库体系Trinity. Trinity是一款NoSQL数据库,同时也是一个基于内存的数据存储与运算体系。Trinity包含一个图布局数据库(供给及时查询与后台批量策画任务,类似于Map/Reduce,同时支撑ACI的事物并供给C#的客户端API)和一个并行策画体系。今朝在微软为Probase和AEther这两个产品办事。

  此外,2011年8月微软就增长了SQL Server在大范围数据处理惩罚和并行数据仓库平台对开源Hadoop框架的支撑。微软已经将Hadoop嵌入到了生态体系中,并且公布了SQL Server的Hadoop连接器,此外,还推出了基于Hadoop的Windows Azure预览版,该连接器的终极版本已供给下载。这两个连接器采取SQL to Hadoop (SQOOP)技巧,在Hadoop File System (HDFS)和微软关系数据库之间有效地传输数据。经由过程这个连接器,用户可以在Hadoop中解析非布局化数据,然后迁徙到SQL Server景象中进行数据解析。

SQL Server的Hadoop连接器

  用户须要将SQL Server Hadoop连接器安排到Hadoop集群的主节点上。主节点还须要安装Sqoop和微软的Java数据库连接驱动。Sqoop是一个开源号令行对象,用来从关系型数据库导入数据,并应用Hadoop MapReduce框架进行数据转换,然后将数据从头导回数据库傍边。

  当SQL Server Hadoop连接器安排完毕之后,用户可以应用Sqoop来导入导出SQL Server数据。重视,Sqoop和连接器是在一个Hadoop的集中视图下进行操纵的,这意味着用户应用Sqoop导入数据的时辰是从SQL Server数据库检索数据并添加到Hadoop景象中,而相反地,导出数据是指从Hadoop中检索数据并发送到SQL Server数据库傍边。

  总而言之,微软默示,跟着新连接对象的呈现,客户将可以或许在Hadoop、SQL Server和并行数据仓换景象下彼此互换数据。

微软再次发力在线数据库连接器:Apache Hadoop发扬光大

微软新研发的是一款ODBC连接器,用于接见Hadoop对应的Hive数据仓库体系。Excel用户拿到Hive数据后,就可以借助Excel PowerPivot等对象,开端数据解析了。

Hortonworks与微软积极开展合作,致力于将微软的Hadoop连接器推广到开源社区。别的的JavaScript也遵守同样的模式,即微软存眷的是做产品,而Hortonworks则致力于开源。

Hortonworks借微软春风 强化合作

  固然今朝来讲,这款Javascript框架和连接器还没有公布,不过估计将来会开源,前景很客观。

  总之,“闭源”微软拥抱Hadoop是米已成炊,微软似乎对开源范畴频繁抛出橄榄枝,但无论如何,微软都不成能与开源Linux划上等号,因为Linux永远是Windows体系在台式机及办事器范畴的直接敌手。而Hadoop则不合,它可以作为微软SQL Server及Azure系列产品的一大首要补充规划而存在。另一方面,Hortonworks 欲望可以或许与微软积极合作,将这门技巧应用到开源范畴,被广大Apache Hadoop社区所采取。微软将重点研发这款对象,打造属于本身产品的核心平台,正所谓各取所需,Hortonworks 也将重点对准了产品,欲望借此春风,进一步衍生出更广泛的应用。

posted @ 2012-06-28 22:50  Danny Chen  阅读(273)  评论(0编辑  收藏  举报