摘要: hadoop中用该类来控制对于数据的处理速度 ,主要思想如下:1、将数据处理分为一个个的周期(period)2、每个周期内处理的bytes固定 。3、定义每次处理周期的开始时间 。4、每次处处理完后调用BlockTransferThrottler.throttle(long numOfBytes)方法,若是还未到周期的结束时间,已经将处理了相应的bytes,则该线程wait 。代码以及注视如下:package org.apache.hadoop.hdfs.server.datanode;/** * a class to throttle the block transfers. * This. 阅读全文
posted @ 2012-03-03 20:27 xiao晓 阅读(710) 评论(0) 推荐(0) 编辑
摘要: 原文转自博客:http://www.oratea.net/?p=799,添加一些修改 。DatanodeProtocol.java 路径:hadoop-0.19.2\src\hdfs\org\apache\hadoop\hdfs\server\protocol\DatanodeProtocol.javaDatanodeProtocol是DataNode与NameNode通信的信息接口,接口定义了DataNode向ameNode发起的全部操作。1 public static final long versionID = 19L;这个标识了协议的版本信息,对于0.19.2来说是19L。2 fina 阅读全文
posted @ 2012-02-15 14:24 xiao晓 阅读(690) 评论(0) 推荐(1) 编辑
摘要: http://www.kuqin.com/system-analysis/20111221/316517.html hadoop的分布式管理工具http://www.tbdata.org/archives/1470 淘宝关于hadoop的性能调优 当job指定了combiner的时候,我们都知道map介绍后会在map端根据combiner定义的函数将map结果进行合并。运行combiner函数的时机有可能会是merge完成之前,或者之后,这个时机可以由一个参数控制,即min.num.spill.for.combine(default 3),当job中设定了combiner,并且spill数最少 阅读全文
posted @ 2012-02-13 15:01 xiao晓 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 转自:http://icooke.blog.51cto.com/4123148/757555http://desert.blog.51cto.com/779694/200270http://www.arjiu.com/archives/462.html自己的cpu是两颗四核的cpu未使用超线程 ,总共8核8线程 。判断依据:1.具有相同core id的cpu是同一个core的超线程。2.具有相同physical id的cpu是同一颗cpu封装的线程或者cores。英文版:1.Physical id and core id are not necessarily consecutive but 阅读全文
posted @ 2012-02-09 11:26 xiao晓 阅读(255) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/tmacwei/articles/2147123.html 大规模数据排序的hadoophttp://www.cnblogs.com/serendipity/archive/2011/08/15/2138736.html 集合的两联求交集的mapreduce程序 。 阅读全文
posted @ 2012-02-09 10:30 xiao晓 阅读(254) 评论(0) 推荐(0) 编辑
摘要: http://silverbullet1985.iteye.com/blog/842814 hadoop的机制http://heipark.iteye.com/blog/1146838 对于mapreduce任务的几个运行时map、reduce数量参数的解释 。http://samuschen.iteye.com/blog/859971 对于hadoop的运行时调节 阅读全文
posted @ 2012-02-09 10:27 xiao晓 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 1、HDFS本身没有提供用户名、用户组的创建,在客户端调用hadoop 的文件操作命令时,hadoop 识别出执行命令所在进程的用户名和用户组,然后使用这个用户名和组来检查文件权限。 2、hadoop的文件权限同linux的用户权限管理机制相同,读写执行,分为 自己 、同一组、alluser 权限层,且有chmod 和 chown相应的操作 。 3、关于web界面中对于权限,web界面访问时候,访问的用户以及组在dfs.web.ugi中配置,such as :用户名,组名1,组名2 ,然后访问享有该用户的权限 。 阅读全文
posted @ 2012-02-02 16:58 xiao晓 阅读(1861) 评论(0) 推荐(0) 编辑
摘要: http://help.yahoo.com/l/nz/yahooxtra/search/webcrawler/slurp-11.html 阅读全文
posted @ 2011-11-23 11:38 xiao晓 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 主要是meta、base、标签的信息/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licenses this file to You under the Apache License, Versi. 阅读全文
posted @ 2011-11-18 15:29 xiao晓 阅读(673) 评论(0) 推荐(0) 编辑
摘要: hadoop在实现datanode、namenode、client之间的通信时,实现了自己的一套rpc通信的协议,协议服务器端采用nio的方式来处理请求,支持局域网的rpc调用 。 协议的传输数据采用writeable数据,每次调用将具体函数参数(writeable),调用方法名称,调用参数类型信息传送过去,然后Server端接收到这些参数之后再根据该方法名称,调用参数类型信息得到相应的Method对象,然后使用参数调用 。 注释源代码见:http://files.cnblogs.com/serendipity/ipc.rar 实例代码: Client端测试代码:package com.... 阅读全文
posted @ 2011-11-11 14:51 xiao晓 阅读(1721) 评论(0) 推荐(0) 编辑
摘要: 目前想到的模型(针对某篇文章的两个最相似文章集合):集合的重合率(两个集合重复的元素) + 重合数据的有序率 。 对于有序率的定义,{1 2 3 4 5}集合是正确有序的,但 {2 3 1 4 5}是错误顺序的,其有序率 : 对于2来说,其余四个数中有三个数的分布是对的(3,4,5分布在2的右边,正确的;但1的位置是错的,应该在2的左边),其有序率为3/4, 对于3来说是3/4 , 对于1来说是2/4 , 对于4来说是4/4 , 对于5来说是4/4 , 所以总的有序率为(3/4+3/4+2/4+1+1)/4 = 0.8 阅读全文
posted @ 2011-11-03 15:22 xiao晓 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 具体见博客:http://gemantic.iteye.com/admin/blogs/1199214关于thrift的一个ppthttp://files.cnblogs.com/serendipity/Thrift.pptthrift测试的代码列表:java的server 和 client 。php 的clientpython 的clienthttp://files.cnblogs.com/serendipity/thrift.rar 阅读全文
posted @ 2011-10-18 09:21 xiao晓 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 转载自:http://blog.csdn.net/lovingprince/article/details/5419032cat /proc/cpuinfo 或者vim /proc/cpuinfo 查看系统信息 cat /proc/cpuinfo -CPU (i.e. vendor, Mhz, flags like mmx) cat /proc/interrupts - 中断 cat /proc/ioports - 设备IO端口 cat /proc/meminfo - 内存信息(i.e. mem used, free, swap size) cat /proc/partition... 阅读全文
posted @ 2011-08-24 10:56 xiao晓 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 自己添加:dfs.datanode.du.reserved :表示在datanode对磁盘写时候,保留多少非dfs的磁盘空间,从而避免dfs将所在的磁盘写满 ,但在0.19.2中该参数存在bug 。I introduced "ipc.server.listen.queue.size" which defines how many calls per handler are allowed in the queue. The default is wtill 100. So there is no change for current users. 启动rpc服务时候每个ha 阅读全文
posted @ 2011-08-23 17:16 xiao晓 阅读(5391) 评论(1) 推荐(0) 编辑
摘要: netstat查询机器使用、监听的端口的具体情况 。netstat查看linux服务器网络连接状态 维护linux服务器时,要经常查看服务器的网络连接状态,netstat是一个非常优秀的工具,通过netstat可以显示网络连接、路由表和网络接口信息,可以让用户得知目前都有哪些网络连接正在运作。netstat -[rn] <==与路由有关的参数netstat -[antulpc] <==与网路介面有关的参数参数:与路由 (route)有关的参数说明:-r :列出路由表(route table),功能如同 route 这个指令;-n :不使用主机名称与服务名称,使用 IP 与 port 阅读全文
posted @ 2011-08-22 10:41 xiao晓 阅读(460) 评论(0) 推荐(0) 编辑
摘要: free : total used free shared buffers cachedMem: 8086108 6252924 1833184 0 213844 5116656-/+ buffers/cache: 922424 7163684Swap: 15623204 68 15623136第二行是从OS的角度来看的,其中buffer 和 cached都是已经被系统使用的 ,但这一部分内存可以被应用程序回立即收回来用的 。cached 是缓存,它把读取过的数据保存起来,重新读取时若找到需要的数据就不要去读硬盘了,若没有找到就读硬盘。buffers 是缓冲,它根据磁盘的读写设计的,把分散的写 阅读全文
posted @ 2011-08-18 10:54 xiao晓 阅读(808) 评论(0) 推荐(0) 编辑
摘要: 转自:http://linux.chinaitlab.com/command/764778.htmltop命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombieCpu(s): 0.3% us, 1.0% sy, 0.0% ni, 98.7% id, 0.0% wa, 0 阅读全文
posted @ 2011-08-18 10:34 xiao晓 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 在hadoop的任务job中,jobid是标志一个任务的唯一标志,可以用于定位到该job,查询该job相关信息,kill掉该job 。jobId是如何生成的呢 ?在一般的服务集群上我们通过JobTracker来管理job,该id既是通过JobTracke的getNewJobId()方法得到,具体代码如下: public synchronized JobID getNewJobId() throws IOException { ensureRunning(); return new JobID(getTrackerIdentifier(), nextJobId++); }代码二: /** * G 阅读全文
posted @ 2011-08-17 13:33 xiao晓 阅读(1217) 评论(0) 推荐(0) 编辑
摘要: jobtracker 默认的端口号:50030 ,jobtracker-host:50030 ,job的管理界面 。dfs 默认端口:50070 ,namenode-host:50070 ,dfs的管理界面(以下转载自:http://hi.baidu.com/chemical_liang/blog/item/18ff1a3a465142e93a87cef8.html)默认端口 设置位置 描述信息50030 mapred.job.tracker.http.address JobTracker administrative web GUIJOBTRACKER的HTTP服务器和端口50070 dfs 阅读全文
posted @ 2011-08-15 10:24 xiao晓 阅读(2725) 评论(0) 推荐(0) 编辑
摘要: 用户 关注的产品1 B C E2 C E F3 A D F4 B C E5 A B D6 A B D矩阵转置:产品 关注该产品的用户A 3 5 6B 1 4 5 6C 1 2 4D 3 5 6E 1 2 4F 2 3map 输入: 几行 (key 是用户 value 关注该用户的人),such as 第一行: A 3 5 6map输出:key 3 value [5 A(共同关注产品A)],[6 A(共同关注产品A)] key 5 [6 A(共同关注产品A)] (只选出key为1的map输出) 1:4--B, 1:5--B, 1:6--B 1:2--C ,1:4--C, 无 1:2--E ,1. 阅读全文
posted @ 2011-08-15 10:09 xiao晓 阅读(1043) 评论(0) 推荐(1) 编辑
摘要: 使用 -jar 以及 -conf命令时候,会把主机节点上相应的jar文件和conf文件夹拷贝给运行的job,因此不需要datanode上相应的jar文件和文件夹 。同样,当你使用默认的conf配置 和 hadoop中lib路径下jar包时,需要保持datanode上的一直且正确。 阅读全文
posted @ 2011-08-12 17:18 xiao晓 阅读(1124) 评论(0) 推荐(0) 编辑
摘要: 进程前台与后台转换需要用到以下几个命令:转自:http://blog.sina.com.cn/s/blog_5208a7520100qchm.html1. &我们最常用到的就是这个命令了. 用法就是放在一个命令的最后, 可以把这个命令放到后台去执行. 大概用法如下:$ tail -f log/* &[1] 21867# 这里 [1] 代表它是后台运行的一个 job 编号为 1# 这里 21867 是它的进程号2. ctrl + z这也是常用到的快捷键. 用于将当前正在执行的前台进程放到后台, 并且暂停. 用法大致如下:$ vi# 按下 ctrl + z[2]+Stoppedvi 阅读全文
posted @ 2011-08-12 14:27 xiao晓 阅读(2495) 评论(0) 推荐(0) 编辑
摘要: 在shell中,表示值是用$,相当于DOS中的%。1.位置参数一般是系统或用户提供的参数。$[0-n],$0,表示指令本身,$1表示第一个参数,一次类推。$0是内部参数,必须要有的,其后的就可有可无了2.内部参数$# 参数数目$? 上一个代码或者shell程序在shell中退出的情况,如果正常退出则 阅读全文
posted @ 2011-08-12 13:15 xiao晓 阅读(514) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.linuxsir.org/main/node/137Linux文件查找命令find,xargs详述总结:zhy2111314来自:LinuxSir.Org整理:北南南北摘要: 本文是find 命令的详细说明,可贵的是针对参数举了很多的实例,大量的例证,让初学者更为容易理解;本文是zhyfly兄贴在论坛中;我对本文进行了再次整理,为方便大家阅读;目录版权声明前言:关于find命令一、find 命令格式1、find命令的一般形式为;2、find命令的参数;3、find命令选项;4、使用exec或ok来执行shell命令;二、find命令的例子;1、查找当前用户主目录下的 阅读全文
posted @ 2011-08-10 10:47 xiao晓 阅读(37401) 评论(0) 推荐(1) 编辑
摘要: 1、对于默认的hadoop日志会在master:50030访问后,在相应的task中看到stdout、stderr ,该文件存放在{logDir}/userlogs/taskid/下 ,可以查看相应的日志 。2、可以在conf的log4j中配置自己的输出log4j 。转载一篇关于日志的文章:http://www.cnblogs.com/gpcuster/archive/2009/08/21/1551715.html 阅读全文
posted @ 2011-08-09 15:10 xiao晓 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 转自:http://doc.linuxpk.com/55291.html二元比较操作符,比较变量或者比较数字.注意数字与字符串的区别. 整数比较 -eq 等于,如:if [ "$a" -eq "$b" ] -ne 不等于,如:if [ "$a" -ne "$b" ] -gt 大于,如:if [ "$a" -gt "$b" ] -ge 大于等于,如:if [ "$a" -ge "$b" ] -lt 小于,如:if [ "$a&q 阅读全文
posted @ 2011-08-09 10:23 xiao晓 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 转自:http://dongxicheng.org/mapreduce/hadoop-schedulers/随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。(2) 计算能力调度器Capacity Scheduler支持多个队 阅读全文
posted @ 2011-08-08 13:36 xiao晓 阅读(2101) 评论(0) 推荐(0) 编辑
摘要: 简单使用:awk :对于文件中一行行的独处来执行操作 。awk -F : Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE MicrosoftInternetExplorer4 ... 阅读全文
posted @ 2011-08-01 17:37 xiao晓 阅读(28895) 评论(1) 推荐(0) 编辑
摘要: 用nohup命令让Linux下程序永远在后台执行(转自:http://www.einit.com/user1/11/archives/2006/3603.html) Unix/Linux下一般想让某个程序在后台运行,很多都是使用 & 在程序结尾来让程序自动运行。比如我们要运行mysql在后台: /usr/local/mysql/bin/mysqld_safe --user=mysql & 但是我们很多程序并不象mysqld一样可以做成守护进程,可能我们的程序只是普通程序而已,一般这种程序即使使用 & 结尾,如果终端关闭,那么程序也会被关闭。为了能够后台运行,我们需要使用 阅读全文
posted @ 2011-08-01 17:09 xiao晓 阅读(4377) 评论(0) 推荐(0) 编辑
摘要: 一般用ssh登陆的时候都需要输入用户名和密码,有时候为了方便不想输入密码怎么办? 以下内容转自鸟哥书: 1.假设被登陆的主机用户为root,需要登陆的client用户为test 2.<1>在客户端使用ssh-keygen -t rsa 产生一对密钥和公钥 <2>回车 <3>回车 <4>ll ~/.ssh 其中id_rsa为私钥id_rsa.pub为公钥 <5>把id_rsa文件放在client中的$HOME/.ssh/中 <6>把id_rsa.pub放在server中的根目录下面 <7>将公钥转存到author 阅读全文
posted @ 2011-07-29 18:03 xiao晓 阅读(593) 评论(0) 推荐(0) 编辑
摘要: FileSystem是一个文件系统的实例,这个文件系统可以是hdfs,也可以是本地的文件系统 。一 获得hdfs的文件系统 String uri = "hdfs://10.0.0.134:9000"; Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://10.0.0.134:9000"); //该方法得到文件系统,其实用到的只是hdfs的url FileSystem fs = FileSystem.get(URI.create(ur 阅读全文
posted @ 2011-07-28 18:42 xiao晓 阅读(2161) 评论(0) 推荐(0) 编辑
摘要: useradd [-d home] [-s shell] [-c comment] [-m [-k template]] [-f inactive] [-e expire ] [-p passwd] [-r] name 3.主要参数 -c:加上备注文字,备注文字保存在passwd的备注栏中。 -d:指定用户登入时的启始目录。 -D:变更预设值。 -e:指定账号的有效期限,缺省表示永久有效。 -f:指定在密码过期后多少天即关闭该账号。 -g:指定用户所属的群组。 -G:指定用户所属的附加群组。 -m:自动建立用户的登入目录。 -M:不要自动建立用户的登入目录。 -n:取消建立以用户名称为名的群组 阅读全文
posted @ 2011-07-23 17:55 xiao晓 阅读(1129) 评论(0) 推荐(0) 编辑
摘要: 1、在ubuntu安装的时候默认root用户是不开启的,需要建立一个非root用户 。2、在其它用户下,使用sudo +shell 就可以使用相应命令的权限 。3、sudo passwd root 可以重设root用户的密码,然后就可以再次启动时以root用户登录了 。4、桌面版本中以root用户登录的方式 :通过修改/etc/gdm/gdm.conf文件来允许root直接登陆,在该文件中,修改其中的AllowRoot=false变成AllowRoot=true重启就可以了。5、创建一个新用户:sudo useradd username6、更改用户密码:sudo passwd username 阅读全文
posted @ 2011-07-23 13:10 xiao晓 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 1、lsof -i:9160 :查看9160端口的占用情况 。 2、grep /query/report/list *.do 1>hell0 2>world 查询,正确输入到hello文件中,错误到world中3、ls | wc -l 显示文件的个数4、tail -fn 100 stdout.log 阅读全文
posted @ 2011-07-21 14:57 xiao晓 阅读(685) 评论(0) 推荐(0) 编辑
摘要: hadoop中一个读取文件中某个片段(由其内部的start、length决定片段)的类,继承自RecordReader,可以作为InputFomat中 public RecordReader<K, V> getRecordReader(InputSplit split,JobConf job, Reporter reporter)方法的返回的结果,处理FileSplit 。可以读取FileSplit中的key、Value对,以便map可以使用 。源代码以及注释如下:/*** hadoop中一个读取文件中某个片段(由其内部的start、length决定片段)的类,* 继承自Recor 阅读全文
posted @ 2011-07-21 11:53 xiao晓 阅读(1703) 评论(0) 推荐(0) 编辑
摘要: (转)http://blog.csdn.net/wh62592855/article/details/5872496 ps -eo pid,tty,user,comm,stime,etime 阅读全文
posted @ 2011-07-18 14:30 xiao晓 阅读(1419) 评论(0) 推荐(0) 编辑
摘要: 本文内容来源于其他网页,参考的网址(转载请注明出处,谢谢):http://blog.nosqlfan.com/html/1217.htmlhttp://hi.baidu.com/shirley_wheat/blog/item/ea89e76113ee30c98cb10d72.htmlhttp://blog.csdn.net/sheperd_shu/article/details/6437845http://hi.baidu.com/hpagent/blog/item/673f8b330d9c2bbd5fdf0e4a.html1.Hadoop’s SequenceFileSequenceFile 阅读全文
posted @ 2011-07-15 14:14 xiao晓 阅读(2263) 评论(0) 推荐(0) 编辑
摘要: ReflectionToStringBuilder reflectionToStringBuilder=new ReflectionToStringBuilder(this,ToStringStyle.MULTI_LINE_STYLE);reflectionToStringBuilder.setExcludeFieldNames(Arrays.asList("titleTokens","contentTokens","content").toArray(new String[0]));利用ReflectionToStringBuild 阅读全文
posted @ 2011-07-08 17:46 xiao晓 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 重构的要点:1、关键点详细记录传过来的数据,不需要到处记录logger,在indexDoc处 。2、查询时将Gquery中含义统一,然后将解析统一 。3、Gquery中在map中添加搜索,若是key为null或者""时候则在默认域(title 和 descriotion)中搜索 。4、将搜索的搜索与详情页的信息读取的分离 :提高搜索的速度以及相应的过滤 。原架构的优点以及注意点:1、将一部分数据存于cash中,便于搜索的实时性(跑马灯),修改索引中跑马灯的数据时候,需要刷新其中的数据 。2、在推数据时候,每推一条存储与文件中,等下次lucene合并时候(将索引写到硬盘上), 阅读全文
posted @ 2011-07-07 19:36 xiao晓 阅读(181) 评论(0) 推荐(0) 编辑
摘要: client.composite中配置 <component name="NewsUpdateServiceComponent"> <implementation.java class="com.gemantic.sca.analyse.news.client.NewsUpdateSCAClient"/> <reference name="newsUpdateService"> <scallop:binding.rmi registryName="gemantic-newsupdat 阅读全文
posted @ 2011-07-05 18:20 xiao晓 阅读(552) 评论(0) 推荐(0) 编辑