蜗牛123

2012年11月30日

摘要：只要谈论大数据，就一定会提到Hadoop。短短的几年时间，Apache Hadoop已经迅速成长为首选的、适用于非结构化数据的大数据分析解决方案。最初，Hadoop项目是由原Yahoo的Doug Cutting创建的，而"Hadoop"这个名字也是来自于Doug Cutting的孩子的玩具的名字，一个可爱的黄色小象。 Hadoop主要由HDFS、MapReduce和HBase三部分组成，是一个能够便捷的开发和运行处理大数据的开源软件平台，最大的特点是其极大的扩展性和良好的伸缩性，可以利用高性价比的X86服务器组成高性能集群，当数据量增加到无法负荷的时候，只需增加相应节点即可阅读全文

posted @ 2012-11-30 13:23 蜗牛123 阅读(258) 评论(0) 推荐(0)

Pig

摘要： Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。阅读全文

posted @ 2012-11-30 12:20 蜗牛123 阅读(214) 评论(0) 推荐(0)

2012年11月29日

Twitter将开源MySQL/Hadoop转移工具

摘要：根据国外媒体报道，Twitter计划开源Hadoop-happy架构的一个附加部分，Twitter用来作为内部数据分析。作为知名的Crane，这个是用来将MySQL转化到Hadoop的工具。这一开源数据分析平台建立在Google的私有设施上。Twitter使用Hadoop来进行数据分析，同时该平台也被使用在站点上，包括Twitter的名称搜索功能。Twitter的大部分表格数据存储在MySQL中，只有一小部分存储在Cassandra。Twitter的技术负责人表示要做的就是在一些地方结束MySQL表格存储。因此Crane被开发出来，用于将数据从MySQL到HDFS或者Hadoop的HBase上阅读全文

posted @ 2012-11-29 22:59 蜗牛123 阅读(177) 评论(0) 推荐(0)

Do we only use 10% of our brains

摘要： We love the idea that we could be much more intelligent or creative if we harnessed unused parts of our minds. Sadly, Claudia Hammond has some bad news.It’s amazing just how many medical myths there are to choose from, but one part of the body seems to attract more than its fair share, and that’s th 阅读全文

posted @ 2012-11-29 22:42 蜗牛123 阅读(263) 评论(0) 推荐(0)

1TB排序冠军--hadoop

摘要： 1、1TB（或1分钟）排序的冠军作为分布式数据处理的框架，集群的数据处理能力究竟有多快？或许1TB排序可以作为衡量的标准之一。 1TB排序，就是对1TB（1024GB，大约100亿行数据）的数据进行排序。2008年，Hadoop赢得1TB排序基准评估第一名，排序1TB数据耗时209秒。后来，1TB排序被1分钟排序所取代，1分钟排序指的是在一分钟内尽可能多的排序。2009年，在一个1406个节点组成的hadoop集群，在59秒里对500GB完成了排序；而在1460个节点的集群，排序1TB数据只花了62秒。这么惊人的数据处理能力，是不是让你印象深刻呢？呵呵下面我们来看看排序的过程吧。 2、排阅读全文

posted @ 2012-11-29 21:49 蜗牛123 阅读(951) 评论(1) 推荐(0)

公告