摘要: 在使用mapreduce运行jar包时,系统所有程序突然关闭。 我找不到log信息,就直接在eclipse中运行程序看是否有错,报错: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/cli/ 阅读全文
posted @ 2016-05-23 21:01 草莓干123456 阅读(11177) 评论(0) 推荐(0) 编辑
摘要: 1.打开eclipse,创建一个新的Java Project;选择“Configure Build Path”,选择Library标签,Add External JARs,选择Apache/Hadoop 1.0.4文件夹,选择下列jar文件:(备注:选择的jar视情况而定,参考链接http://ww 阅读全文
posted @ 2016-05-23 20:52 草莓干123456 阅读(272) 评论(0) 推荐(0) 编辑
摘要: MapReduce: 概念:MapReduce主要是分布式编程的一个编程模型 优势: 1、允许我们处理输入输出的限制 2、他是个无共享架构,每个节点可以并行处理该节点上的数据, 无需包含其他节点的运行情况 3、他能高效处理可能因为硬件问题造成的各种执行故障 4、数据局部性,就是说代码找到数据所在节点 阅读全文
posted @ 2016-05-22 18:21 草莓干123456 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 使用for filePath,content in corpos.itertuples(index=False)遍历两行数据 问题:在遍历pandas进行分词时,并将修改后的文本写入源文件 一开始使用for content in corpos['content'], 虽然content有遍历,但是f 阅读全文
posted @ 2016-05-20 13:25 草莓干123456 阅读(3046) 评论(0) 推荐(0) 编辑
摘要: 中文信息处理课,老师让写个字频统计的程序,我能够写出来,但是运行速度很慢。 希望路过的大神给我提点意见。 import osimport os.pathimport codecsimport pandasimport numpyimport jieba #创建词库corpos = pandas.Da 阅读全文
posted @ 2016-05-20 13:10 草莓干123456 阅读(875) 评论(0) 推荐(0) 编辑
摘要: 1、首先要打开hbase,使用jps查看进程 jps是java进程状态工具,它会返回进程ID和服务名称 chen@ubuntu:~/Apache/hbase-0.94.15-security$ jps 3082 NameNode 6245 HRegionServer 3493 JobTracker 阅读全文
posted @ 2016-05-19 22:41 草莓干123456 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 在本地安装hbase时遇到以下问题,均已解决: 1.在开启hbase之前,要先开启hadoop,我错误的重新格式化namenode,促使namenode和datanode的id不一致,并且错误的修改了etc/hosts的内容,导致在重新格式化的时候,无法识别我的主机名映射ip,导致开启后的hadoo 阅读全文
posted @ 2016-05-17 21:06 草莓干123456 阅读(381) 评论(1) 推荐(0) 编辑