上一页 1 2 3 4 5 6 7 ··· 28 下一页
摘要: 一、环境准备1、安装jdk、maven等2、下载hadoop源代码,并解压3、将tools.jar复制到Classes中,具体原因见http://wiki.apache.org/hadoop/HowToSetupYourDevelopmentEnvironmentcd $JAVA_HOME mkdi... 阅读全文
posted @ 2015-04-12 09:27 lujinhong 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 更多内容请参考官方文档:http://maven.apache.org/guides/index.html 官方文档很详细,基本上可以查找到一切相关的内容。另外,快速入门可参考视频:孔浩的maven视频。一、快速入门(一)搭建环境1、下载maven,并将之解压或者直接使用yum 来安装2、配置环境变... 阅读全文
posted @ 2015-04-10 22:53 lujinhong 阅读(162) 评论(0) 推荐(0) 编辑
摘要: /etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc:为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.~/.bash... 阅读全文
posted @ 2015-04-03 22:21 lujinhong 阅读(460) 评论(0) 推荐(0) 编辑
摘要: Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后... 阅读全文
posted @ 2015-03-15 20:11 lujinhong 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 总结:1、B+树将数据完全排序,读数据时很快,但当要修改数据时,就需要将新入数据下面的数据重新排位,特别是当写入的数据排在较高的位置时,需要大量的移位操作才能完成写入。2、SLM牺牲部分的读性能,从而提高写性能:将数据分散到多个有序列表中,每个列表保存一部分数据,这样读取数据时,就需要先查找在哪个有... 阅读全文
posted @ 2015-03-15 18:27 lujinhong 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 一、JVM调优基本流程1、划分应用程序的系统需求优先级2、选择JVM部署模式:单JVM、多JVM3、选择JVM运行模式4、调优应用程序内存使用5、调优应用程序延迟6、调优应用程序吞吐量二、选择JVM部署模式:单JVM、多JVM1、单JVM优点:不需要管理多个JVM,降低管理成本; 应用程序消耗内存数... 阅读全文
posted @ 2015-03-14 09:33 lujinhong 阅读(164) 评论(0) 推荐(0) 编辑
摘要: hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先... 阅读全文
posted @ 2015-03-13 20:53 lujinhong 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer... 阅读全文
posted @ 2015-03-13 20:52 lujinhong 阅读(180) 评论(0) 推荐(0) 编辑
摘要: hadoop集群性能低下的常见原因(一)硬件环境1、CPU/内存不足,或未充分利用2、网络原因3、磁盘原因(二)map任务原因1、输入文件中小文件过多,导致多次启动和停止JVM进程。可以设置JVM重用。2、数据倾斜:大文件且不可分割,导致处理这些文件的map需要很长时间。3、数据本地化效果差。(三)... 阅读全文
posted @ 2015-03-13 20:51 lujinhong 阅读(242) 评论(0) 推荐(0) 编辑
摘要: Injector Job的主要功能是根据crawlId在hbase中创建一个表,将将文本中的seed注入表中。(一)命令执行1、运行命令[jediael@master local]$ bin/nutch inject seeds/ -crawlId sourcetestInjectorJob: st... 阅读全文
posted @ 2015-03-10 15:44 lujinhong 阅读(262) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 28 下一页