摘要: 使用python计算crf根据模型的分词结果的准确率,召回率和F值 测试文件output.txt,第一列是字,第二列是人工标注的分词结果,第三列是根据模型使用crf得到的分词结果, 字母B:单词的首字母;字母E:单词的尾字母;字母BE:单词的中间字母 格式如下: 团 B B 圆 E E 是 BE B 阅读全文
posted @ 2016-06-19 13:01 草莓干123456 阅读(16426) 评论(0) 推荐(0) 编辑
摘要: 由于一个单独的mapreduce不能解决问题,我们需要同时编写几个mapreduce或同时使用sqoop,mapreduce,pig和hive来实现,因而我们需要oozie。 oozie是一个可以包含所有程序并按顺序依次调用它们的工作流和调节引擎。 oozie包含workflow engine(工作 阅读全文
posted @ 2016-06-15 15:36 草莓干123456 阅读(358) 评论(0) 推荐(0) 编辑
摘要: Combiner用来在map输出之前先做一次合并,减少map和reduce节点之间的数据传输,优化mapreduce。 Combiner相当于是一个小的reduce,如下所示 map:(key1,value1) ——> list(key2,value2) combiner:(key2,list(va 阅读全文
posted @ 2016-06-11 15:35 草莓干123456 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 1、分区 在hive中使用select查询一般会扫描整个表的内容,从而降低降低查询的效率。引入分区的概念,使得查询时只扫描表中关心的部分数据。 一个表中可以有一个或多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。 1.1分区建表分为单分区和双分区建表: 单分区建表语句:create tab 阅读全文
posted @ 2016-06-11 15:23 草莓干123456 阅读(3375) 评论(0) 推荐(0) 编辑
摘要: 1、读入文本内容 2、将手动分完词的文本进行词频统计 3、计算tf值 4、计算IDF 5、计算tfidf 6、将每个文本中tfidf值排名前100的词和相应的tfidf值输出 阅读全文
posted @ 2016-06-04 23:52 草莓干123456 阅读(9199) 评论(0) 推荐(2) 编辑
摘要: 简单爬取豆瓣网同城活动内容,爬取结果: di : 金阳东街18号万科都荟体验... title : 万科携手设计地图100 献上原创“家剧”大片 time : 5月29日 周日 - 6月12日 周日 score : 23人关注 di : 云南路50号和光陶社 title : 色诱——小草釉画展 ti 阅读全文
posted @ 2016-06-03 15:59 草莓干123456 阅读(267) 评论(0) 推荐(0) 编辑
摘要: import os import os.path import codecs import numpy import pandas import jieba #创建语料库 corpos = pandas.DataFrame(columns=['filePath', 'content']) for root, dirs, files in os.walk( "D:\\PDM\\2.1\... 阅读全文
posted @ 2016-06-03 15:55 草莓干123456 阅读(907) 评论(0) 推荐(0) 编辑
摘要: MRUnit可以花费时间少,并且可以分别测试mapper和reducer 步骤: 1、 运用MRUnit测试mapper和reducer 2、 执行mapreduce代码的本地化测试 3、 使用hadoop日志 4、 通过计数器跟踪执行指标 Testing Mapper的过程 1、 实例化mapdi 阅读全文
posted @ 2016-05-29 15:13 草莓干123456 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 1、通过传统的key-value类分析数据 创建key类时,所有key都要继承writablecomparable接口 public class sendorkey implements writablecomparable { default constructor+parameterized c 阅读全文
posted @ 2016-05-29 14:53 草莓干123456 阅读(221) 评论(0) 推荐(0) 编辑
摘要: Secondary NameNode:它究竟有什么作用? 在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不是。很多Hadoop的初学者都很疑惑,Secondary NameNode究竟是做 阅读全文
posted @ 2016-05-23 21:22 草莓干123456 阅读(9021) 评论(0) 推荐(1) 编辑