lujinhong - 博客园

2015年4月12日

在mac中导入hadoop2.6.0源代码至eclipse

摘要：一、环境准备1、安装jdk、maven等2、下载hadoop源代码，并解压3、将tools.jar复制到Classes中，具体原因见http://wiki.apache.org/hadoop/HowToSetupYourDevelopmentEnvironmentcd $JAVA_HOME mkdi... 阅读全文

posted @ 2015-04-12 09:27 lujinhong 阅读(158) 评论(0) 推荐(0) 编辑

2015年4月10日

Maven基础教程

摘要：更多内容请参考官方文档：http://maven.apache.org/guides/index.html 官方文档很详细，基本上可以查找到一切相关的内容。另外，快速入门可参考视频：孔浩的maven视频。一、快速入门（一）搭建环境1、下载maven，并将之解压或者直接使用yum 来安装2、配置环境变... 阅读全文

posted @ 2015-04-10 22:53 lujinhong 阅读(162) 评论(0) 推荐(0) 编辑

2015年4月3日

centos中的配置文件

摘要： /etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc:为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.~/.bash... 阅读全文

posted @ 2015-04-03 22:21 lujinhong 阅读(460) 评论(0) 推荐(0) 编辑

2015年3月15日

Hbase写数据，存数据，读数据的详细过程

摘要： Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后... 阅读全文

posted @ 2015-03-15 20:11 lujinhong 阅读(263) 评论(0) 推荐(0) 编辑

NoSql中的B-tree、B+tree和LSM-tree

摘要：总结：1、B+树将数据完全排序，读数据时很快，但当要修改数据时，就需要将新入数据下面的数据重新排位，特别是当写入的数据排在较高的位置时，需要大量的移位操作才能完成写入。2、SLM牺牲部分的读性能，从而提高写性能：将数据分散到多个有序列表中，每个列表保存一部分数据，这样读取数据时，就需要先查找在哪个有... 阅读全文

posted @ 2015-03-15 18:27 lujinhong 阅读(278) 评论(0) 推荐(0) 编辑

2015年3月14日

JVM调优基础

摘要：一、JVM调优基本流程1、划分应用程序的系统需求优先级2、选择JVM部署模式：单JVM、多JVM3、选择JVM运行模式4、调优应用程序内存使用5、调优应用程序延迟6、调优应用程序吞吐量二、选择JVM部署模式：单JVM、多JVM1、单JVM优点：不需要管理多个JVM，降低管理成本；应用程序消耗内存数... 阅读全文

posted @ 2015-03-14 09:33 lujinhong 阅读(164) 评论(0) 推荐(0) 编辑

2015年3月13日

如何在hadoop中控制map的个数

摘要： hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。为了方便介绍，先... 阅读全文

posted @ 2015-03-13 20:53 lujinhong 阅读(173) 评论(0) 推荐(0) 编辑

HBase -ROOT-和.META.表结构(region定位原理)

摘要：在HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入，删除，查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer？就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer... 阅读全文

posted @ 2015-03-13 20:52 lujinhong 阅读(180) 评论(0) 推荐(0) 编辑

hadoop调优之一：概述

摘要： hadoop集群性能低下的常见原因（一）硬件环境1、CPU/内存不足，或未充分利用2、网络原因3、磁盘原因（二）map任务原因1、输入文件中小文件过多，导致多次启动和停止JVM进程。可以设置JVM重用。2、数据倾斜：大文件且不可分割，导致处理这些文件的map需要很长时间。3、数据本地化效果差。（三）... 阅读全文

posted @ 2015-03-13 20:51 lujinhong 阅读(242) 评论(0) 推荐(0) 编辑

2015年3月10日

Injector Job深入分析

摘要： Injector Job的主要功能是根据crawlId在hbase中创建一个表，将将文本中的seed注入表中。（一）命令执行1、运行命令[jediael@master local]$ bin/nutch inject seeds/ -crawlId sourcetestInjectorJob: st... 阅读全文

posted @ 2015-03-10 15:44 lujinhong 阅读(262) 评论(0) 推荐(0) 编辑

jinhong_lu

公告