摘要:
只要谈论大数据,就一定会提到Hadoop。短短的几年时间,Apache Hadoop已经迅速成长为首选的、适用于非结构化数据的大数据分析解决方案。最初,Hadoop项目是由原Yahoo的Doug Cutting创建的,而"Hadoop"这个名字也是来自于Doug Cutting的孩子的玩具的名字,一个可爱的黄色小象。 Hadoop主要由HDFS、MapReduce和HBase三部分组成,是一个能够便捷的开发和运行处理大数据的开源软件平台,最大的特点是其极大的扩展性和良好的伸缩性,可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可 阅读全文
摘要:
Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 阅读全文