上一页 1 2 3 4 5 6 ··· 8 下一页
摘要: 总结:1、B+树将数据完全排序,读数据时很快,但当要修改数据时,就需要将新入数据下面的数据重新排位,特别是当写入的数据排在较高的位置时,需要大量的移位操作才能完成写入。2、SLM牺牲部分的读性能,从而提高写性能:将数据分散到多个有序列表中,每个列表保存一部分数据,这样读取数据时,就需要先查找在哪个有... 阅读全文
posted @ 2015-03-15 18:27 lujinhong2 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 一、JVM调优基本流程1、划分应用程序的系统需求优先级2、选择JVM部署模式:单JVM、多JVM3、选择JVM运行模式4、调优应用程序内存使用5、调优应用程序延迟6、调优应用程序吞吐量二、选择JVM部署模式:单JVM、多JVM1、单JVM优点:不需要管理多个JVM,降低管理成本; 应用程序消耗内存数... 阅读全文
posted @ 2015-03-14 09:33 lujinhong2 阅读(131) 评论(0) 推荐(0) 编辑
摘要: hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先... 阅读全文
posted @ 2015-03-13 20:53 lujinhong2 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer... 阅读全文
posted @ 2015-03-13 20:52 lujinhong2 阅读(165) 评论(0) 推荐(0) 编辑
摘要: hadoop集群性能低下的常见原因(一)硬件环境1、CPU/内存不足,或未充分利用2、网络原因3、磁盘原因(二)map任务原因1、输入文件中小文件过多,导致多次启动和停止JVM进程。可以设置JVM重用。2、数据倾斜:大文件且不可分割,导致处理这些文件的map需要很长时间。3、数据本地化效果差。(三)... 阅读全文
posted @ 2015-03-13 20:51 lujinhong2 阅读(170) 评论(0) 推荐(0) 编辑
摘要: Injector Job的主要功能是根据crawlId在hbase中创建一个表,将将文本中的seed注入表中。(一)命令执行1、运行命令[jediael@master local]$ bin/nutch inject seeds/ -crawlId sourcetestInjectorJob: st... 阅读全文
posted @ 2015-03-10 15:44 lujinhong2 阅读(174) 评论(0) 推荐(0) 编辑
摘要: http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeep... 阅读全文
posted @ 2015-03-10 10:14 lujinhong2 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 一、决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中 推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的 内部节点进行属性的比较,... 阅读全文
posted @ 2015-03-09 11:08 lujinhong2 阅读(184) 评论(0) 推荐(0) 编辑
摘要: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。一、Mah... 阅读全文
posted @ 2015-03-07 16:20 lujinhong2 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond... 阅读全文
posted @ 2015-03-06 20:53 lujinhong2 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 一、数据准备1、每天生成随机一个文本,每小时向文本中追加2次数据,每次10万条随机数据生成:2,32 * * * * bash /mnt/jediael/irms/signalGenerator/signalGenerator.sh >> /home/jediael/sg.log 2>&1类:Sig... 阅读全文
posted @ 2015-03-06 14:17 lujinhong2 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 1、基本格式第1列分钟1~59第2列小时1~23(0表示子夜)第3列日1~31第4列月1~12第5列星期0~6(0表示星期天)第6列要运行的命令2、关于日志(1)基本日志位于 /var/log/cron,但这个日志只能看任务是否有被运行。(2)关于运行脚本产生的日志,可以重定向到某个文件中,如:2,... 阅读全文
posted @ 2015-03-06 11:17 lujinhong2 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 大部分内容参考http://www.linuxidc.com/Linux/2012-04/58178.htm J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling,叫做HPROF。HPROF实际上是JVM中的一个native的库,它会在JVM启动的时候通过命... 阅读全文
posted @ 2015-03-02 12:18 lujinhong2 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 实验简单来讲就是1. put 一个600M文件,分散3个replica x 9个block 共18个blocks到4个datanode2. 我关掉了两个datanode,使得大部分的block只在一个datanode上存在,但因为9个很分散,所以文件能正确取回(靠的是checksum来计算文件值)3... 阅读全文
posted @ 2015-03-02 09:38 lujinhong2 阅读(145) 评论(0) 推荐(0) 编辑
摘要: (一)备份namenode的元数据namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用。因此应该经常对元数据进行备份,最好是异地备份。1、将元数据复制到远程站点(1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它... 阅读全文
posted @ 2015-03-01 21:26 lujinhong2 阅读(332) 评论(0) 推荐(0) 编辑
摘要: hadoop存在多种日志文件,其中master上的日志文件记录全面信息,包括slave上的jobtracker与datanode也会将错误信息写到master中。而slave中的日志主要记录完成的task任务信息。默认情况下,hadoop日志保存在HADOOP_INSTALL/logs目录,但一般情... 阅读全文
posted @ 2015-02-28 20:37 lujinhong2 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 一、Nutch日志实现方式1、Nutch使用slf4j作为日志接口,使用log4j作为具体实现。关于二者的基础,请参考http://blog.csdn.net/jediael_lu/article/details/43854571http://blog.csdn.net/jediael_lu/art... 阅读全文
posted @ 2015-02-17 20:14 lujinhong2 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 吐槽几句,log4j的坑啊.... (1)CLASSPATH中不能有多个log4j的版本本,否则有有奇形怪状的NoSuchMethod, NoSuchFiled, NoClassDefineFound等异常。明明是太多了,还告诉你没有 (2)与slf4j的搭建,必须版本一致,如slf4j-1.7.2... 阅读全文
posted @ 2015-02-17 10:58 lujinhong2 阅读(748) 评论(0) 推荐(0) 编辑
摘要: slf4j只是一个门面(facet),它不包含具体的实现,而是将一些log4j,java.logging等实现包装成统一的接口。借用下图展示了常用日志文件的关系: 通过上面的图,可以简单的理清关系! commons-logging和slf4j都是日志的接口,供用户使用,而没有提供实现! log4j,logback等等才是日志的真正实现。 当我们调用接口时,接口的... 阅读全文
posted @ 2015-02-16 20:36 lujinhong2 阅读(833) 评论(0) 推荐(0) 编辑
摘要: 在日志中常用的记录当前时间及程序运行时长的方法: public void inject(Path urlDir) throws Exception { SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); long start = System.currentTimeMillis(); LOG.i... 阅读全文
posted @ 2015-02-16 17:55 lujinhong2 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 一、Avro的基本功能1、定义了数据模式文件的语法,一般使用json文件。以及一些数据基本类型与复杂类型。2、定义了数据序列化到文件后的数据格式,此格式可供各种语言进行读取。3、为部分语言定义了序列化文件的读取API,如JAVA等。4、扩展了hadoop的基本mapreduce,提供了用于使用Avr... 阅读全文
posted @ 2015-02-14 19:56 lujinhong2 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 第一部分:编码基础为什么需要编码:用计算机看得懂的语言(二进制数)表示各种各样的字符。一、基本概念ASCII、Unicode、big5、GBK等为字符集,它们只定义了这个字符集内有哪些字符,以及分别用什么数字表示。而UTF-8与UTF-16则定义了Unicode字符集如何使用计算机看得懂的语言进行传... 阅读全文
posted @ 2015-02-11 15:11 lujinhong2 阅读(123) 评论(0) 推荐(0) 编辑
摘要: http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/几种常见的编码格式为什么要编码不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是... 阅读全文
posted @ 2015-02-10 21:09 lujinhong2 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形... 阅读全文
posted @ 2015-02-10 21:07 lujinhong2 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章:第一篇:JAVA字符编码系列... 阅读全文
posted @ 2015-02-10 21:05 lujinhong2 阅读(111) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/qinysong/article/details/1179489这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各... 阅读全文
posted @ 2015-02-10 21:03 lujinhong2 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章:第一篇:JAVA字符编码系列... 阅读全文
posted @ 2015-02-10 21:01 lujinhong2 阅读(165) 评论(0) 推荐(0) 编辑
摘要: nutch将从网页中抓取到的信息放入hbase数据库中,默认情况下表名为$crawlId_webpage,但表中的内容以16进制进行表示,直接scan或者通过Java API进行读取均只能读取到16进制信息。 因此nutch提供了readdb选项进行数据获取,将表中的内容读取到一个文本中。具体用法... 阅读全文
posted @ 2015-02-10 14:59 lujinhong2 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 转载自:http://www.cnblogs.com/liuling/p/2013-7-24-01.html另可参考:http://gengning938.blog.163.com/blog/static/128225381201141121326346/ 排序大的分类可以分为两种:内排序和外排序... 阅读全文
posted @ 2015-02-03 20:09 lujinhong2 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 1、设置job的基础属性Job job = new Job();job.setJarByClass(***.class);job.setJobName(“job name”);job.setNumReduce(2);2、设置Map与Reudce的类job.setMappgerClass(*.clas... 阅读全文
posted @ 2015-02-02 21:33 lujinhong2 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 1、 HBase is able to connect to ZooKeeper but the connection closes immediatelyhbase(main):001:0> listTABLE ERROR: org.apache.hadoop.hbase.ZooKeeperCon... 阅读全文
posted @ 2015-02-02 16:16 lujinhong2 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 参考官方文档:http://gora.apache.org/current/tutorial.html项目代码见:https://code.csdn.net/jediael_lu/mygorademo另环境准备见: http://blog.csdn.net/jediael_lu/article/de... 阅读全文
posted @ 2015-01-31 11:27 lujinhong2 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 适用系统:Linux(Redhat , CentOS,Debian,Ubuntu)* Linux的云服务器数据盘未做分区和格式化,可以根据以下步骤进行分区以及格式化操作。下面的操作将会把数据盘划分为一个分区来使用。1、查看数据盘在没有分区和格式化数据盘之前,使用 “df –h”命令,是无法看到数据盘... 阅读全文
posted @ 2015-01-30 18:13 lujinhong2 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 概述Gora是apache的一个开源项目。The Apache Gora open source framework provides an in-memory data model and persistence for big data. Gora supports persisting to ... 阅读全文
posted @ 2015-01-30 09:55 lujinhong2 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 参考官方文档:http://gora.apache.org/current/tutorial.html项目代码见:https://code.csdn.net/jediael_lu/mygorademo一、环境准备1、下载gora并解压2、分别进入$GORA_HOME/gora-hbase/,$GOR... 阅读全文
posted @ 2015-01-29 16:14 lujinhong2 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 参考http://wiki.apache.org/nutch/RunNutchInEclipse一、环境准备1、下载nutch2.3源代码wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz或者下载正在开... 阅读全文
posted @ 2015-01-28 16:41 lujinhong2 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 在nutch中,默认情况下尊重robot.txt的配置,同时不提供配置项以忽略robot.txt。以下是其中一个解释。即作为apache的一个开源项目,必须遵循某些规定,同时由于开放了源代码,可以简单的通过修改源代码来忽略robot.txt的限制。From the point of view of ... 阅读全文
posted @ 2015-01-28 11:20 lujinhong2 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 1、下载相关软件,并解压版本号如下:(1)apache-nutch-2.3(2) hadoop-1.2.1(3)hbase-0.92.1(4)solr-4.9.0并解压至/opt/jediael。若要下载最新的开发版本nutch,可以进行以下操作 svn co https://svn.apache.... 阅读全文
posted @ 2015-01-24 17:24 lujinhong2 阅读(434) 评论(0) 推荐(0) 编辑
摘要: 先安装hadoop1.2.1,见http://blog.csdn.net/jediael_lu/article/details/389264771、配置hbase-site.xml hbase.zookeeper.quorum master,slave1,slave2 hbase.... 阅读全文
posted @ 2015-01-24 17:14 lujinhong2 阅读(135) 评论(0) 推荐(0) 编辑
摘要: hadoop通过Configuration类来保存配置信息1、通过Configuration.addResource()来加载配置文件2、通过Configuration.get***()来获取配置属性1、创建一个新的Configuration实例时,会加载core-default.xml与core-... 阅读全文
posted @ 2015-01-21 11:29 lujinhong2 阅读(149) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 8 下一页