05 2014 档案
摘要:Hive优化总结【转自:http://sznmail.iteye.com/blog/1499789】 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理...
阅读全文
摘要:【转自】:http://www.superwu.cn/2014/01/10/963/1.1.1. hadoop的核心思想Hadoop包括两大核心,分布式存储系统和分布式计算系统。1.1.1.1. 分布式存储为什么数据需要存储在分布式的系统中哪,难道单一的计算机存储不了吗,难道现在的几个TB的硬盘装不...
阅读全文
摘要:【转自:】http://blog.csdn.net/hitwengqi/article/details/8008203最近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文。首先要了解一下Hadoop的运行模式:单机模式(standalone) 单机模式是Hadoop的默认模式。当...
阅读全文
摘要:【转自】http://blog.sina.com.cn/s/blog_81e6c30b01019po3.html守护进程,也就是通常说的Daemon进程,是Linux中的后台服务进程。一般如果正常启动hadoop,我们可以在master上通过jps命令看到以下5个daemons:[root@mast...
阅读全文
摘要:【转自】http://xzx4959.blog.163.com/blog/static/47868170201311901848348/一般如果正常启动hadoop,我们可以在master上通过jps命令看到以下5个daemons:[root@master ~]# jps19803Secondary...
阅读全文
摘要:hadoop的五个守护进程【转自】:http://xubindehao.iteye.com/blog/1395580一般如果正常启动hadoop,我们可以在master上通过jps命令看到以下5个daemons:[root@master ~]# jps19803SecondaryNameNode19...
阅读全文
摘要:Hive中小表与大表关联(join)的性能分析【转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到...
阅读全文
摘要:[转自]:http://my.oschina.net/chape/blog/132533目录[-]哈希表的原理与实现一致性 hash 算法基本场景hash算法和单调性consistent hashing算法的原理虚拟节点小结分布式哈希算法哈希函数哈希表分布式哈希表哈希表的工作原理与常用操作基础操作应...
阅读全文
摘要:http://wenku.baidu.com/link?url=MBGSWOCEeJEG2LBcUUWyhcK_q5L2debKON9_YKVbgZJezORkf1eP7uDH8QYP8csyF89zgNEkZ3oZ7av6EQYZZg4y2iK12R00jVALdZ4FWwO&uid=140019...
阅读全文
摘要:函数如何使用:hive> desc concat_test;OKaintbstringhive> select * from concat_test;OK1good2other1nice1hellohive> select a,concat(b,',') from concat_test group...
阅读全文