跟小D每日学口语
摘要: 如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同?现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据。但成本上有些昂贵。这种对数据的要求限制了可处理的数据种类,同时这种惯性所带的缺点还影响到数据仓库在面对海量异构数据时对于敏捷的探索。这通常意味着有价值的数据源在组织内从未被挖 阅读全文
posted @ 2012-06-28 23:20 Danny Chen 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 名人名言:有的人自认为会做一些事情,实际上他们什么都不会,只是什么都懂一点而已。对于什么都不需要的人,他们什么都愿意出借,而对真正需要的人,却什么也不拿出来;另一些人悄悄审度着别人的思想,而将自己的金钱及疯狂的举动都高利放出去。有的人你再也得不到如实的印象,他们的心灵,就像一面使用过久已不光滑的镜子,再也映照不出任何形象;另一些人,对他们的感官和生命都格外节俭,表面上则装出舍弃生命的样子,就像有人随意将性命从窗户抛掷出去一样。——巴尔扎克今天去听了微软的SQL Server2012公布预览会,据说到Hadoop的支撑。在海量数据时代的大趋势下,微软增长了SQL Server大范围数据处理惩罚和 阅读全文
posted @ 2012-06-28 22:50 Danny Chen 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 当你利用Hadoop进行大数据分析和处理时,首先你需要确保配置、部署和管理集群。这个即不容易也没有什么乐趣,但却受到了开发者们的钟爱。本文提供了5款工具帮助你实现。Apache AmbariApache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari向Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服务。Apache MesosApache Mesos是集群管理器,可以让用户在同一时间同意集群上运行多个Hadoop任务或其他高性 阅读全文
posted @ 2012-06-28 22:42 Danny Chen 阅读(2306) 评论(0) 推荐(0) 编辑
摘要: 大数据的泡沫在毫无止境的膨胀,它给IT企业带来了颠覆性的改革。 Hortonworks的CEO Eric Baldeschwieler表示,目前企业中80%的数据是非结构化数据。更为雷人的是这些数据在以60%的速度呈现指数级增长,到2020年,全球数据使用量预计将暴增44倍,达到35.2ZB(1ZB=10亿TB)。大数据的急剧蔓延使得企业在存储架构方面逐渐面临着史无前例的考验,由此引发了数据仓库、数据挖掘、商业智能、云计算等应用的一连串连锁反应。据最新消息,微软正在研发一种连接器,即Excel用户能访问Hadoop大数据处理结果。而Hortonworks希望把它变成NoSQL到SQL的的通用连 阅读全文
posted @ 2012-06-28 22:41 Danny Chen 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 1. update id set A=(select A from id,ida where id.id=ida.id),B=(select B from id,ida where id.id=ida.id),C=(select C from id,ida where id.id=ida.id)2. update id set (a,b,c)=(select a,b,c from ida where ida.id=id.id);3. update a set a.a = b.a , a.b = b.b , a.c=... 阅读全文
posted @ 2012-06-28 13:40 Danny Chen 阅读(4255) 评论(0) 推荐(0) 编辑