摘要: 配置远程登录1) 在自己的linux机上搭好hadoop,详细过程请参考:http://www.cnblogs.com/stardjyeah/p/4641554.html2) 修改linux的hosts文件# vim /etc/hosts在hosts文件的最下面一行添加,格式为:第一部份:网络IP地... 阅读全文
posted @ 2015-07-13 18:56 搞不清算法 阅读(5861) 评论(0) 推荐(0) 编辑
摘要: MapReduce原理图:MapReduce具体执行过程图:首先是客户端要编写好mapreduce程序,配置好mapreduce的作业也就是job,接下来就是提交job了,提交job是提交到JobTracker上的,这个时候JobTracker就会构建这个job,具体就是分配一个新的job任务的ID... 阅读全文
posted @ 2015-07-13 18:49 搞不清算法 阅读(5585) 评论(0) 推荐(0) 编辑
摘要: HDFS原理图:下面我们来写一个基于HDFS的demo,该demo主要实现的是将HDFS上的一个文件内容读取出来并保存到另一个文件上的功能。1.辅助类这个类主要是用来获取hdfs文件系统连接的public class HdfsUtils { /** * @return ... 阅读全文
posted @ 2015-07-13 18:44 搞不清算法 阅读(2626) 评论(0) 推荐(0) 编辑
摘要: 安装hadoop要先做以下准备:1.jdk,安装教程在http://www.cnblogs.com/stardjyeah/p/4640917.html2.ssh无密码验证,配置教程在http://www.cnblogs.com/stardjyeah/p/4641524.html3.linux静态ip... 阅读全文
posted @ 2015-07-12 21:18 搞不清算法 阅读(2491) 评论(0) 推荐(0) 编辑
摘要: 1) 安装sshsudo apt-get install ssh2) 设置免密码登陆ssh-keygen -t rsa(执行完本条命令后一直回车)若出现以下图案则说明配置成功:cp id_rsa.pub authorized_keys (到此处已经可以免密码登录本机,ssh localhost可测试... 阅读全文
posted @ 2015-07-12 21:05 搞不清算法 阅读(533) 评论(0) 推荐(0) 编辑
摘要: 1) 先看linux系统是否装有openjdkrpm -qa |grep java如果有,则将其删除rpm -e - -nodeps jdkname2) 将jdk解压到JAVA_HOME中,然后配置环境变量sudo vim /etc/profile在末尾追加如下字段:#JAVA_HOMEexport... 阅读全文
posted @ 2015-07-12 14:23 搞不清算法 阅读(588) 评论(0) 推荐(0) 编辑
摘要: 找到文件interfaces,路径:/etc/network/interfaces打开interfaces文件,看到以下内容:auto loiface lo inet loopbackauto dsl-provideriface dsl-provider inet ppppre-up /sbin/i... 阅读全文
posted @ 2015-07-12 11:20 搞不清算法 阅读(2405) 评论(0) 推荐(0) 编辑
摘要: 一、 什么是StandfordParser?StandfordParser是Stanford NLP小组提供的一系列工具之一,是用来完成语法分析的任务。StanfordParser可以找出句子中词语之间的dependency关联信息,并且以StanfordDependency格式输出,包括有向图及树... 阅读全文
posted @ 2015-06-13 21:47 搞不清算法 阅读(9287) 评论(0) 推荐(0) 编辑
摘要: slf4j简介slf4j,即简单日志门面(Simple Logging Facade for Java),不是具体的日志解决方案,它只服务于各种各样的日志系统,也就是说它只是一个抽象层(abstract layer),它允许你在后台使用任意一个日志类库。如果你开发的是类库或者嵌入式组件,那么就应该考... 阅读全文
posted @ 2015-06-13 10:01 搞不清算法 阅读(1318) 评论(0) 推荐(0) 编辑
摘要: 启发式规则: 1.如果正反向分词结果词数不同,则取分词数量较少的那个。 2.如果分词结果词数相同 a.分词结果相同,就说明没有歧义,可返回任意一个。 b.分词结果不同,返回其中单字较少的那个。算法描述:S1为带切分字符串,FMM为S1正向最大匹配切分结果,BMM为S1逆向最大匹配切分结果如果FMM和... 阅读全文
posted @ 2015-05-25 20:30 搞不清算法 阅读(707) 评论(0) 推荐(0) 编辑