2016年4月21日

摘要: 1. 分词Rwordseg介绍: 采用HMM分词,命令segmentCN 自定义词典insertWords(c("我要")) 用于识别人名segment.options(isNameRecognition = TRUE) 方案:Rwordseg分词,DocumentTermMatrix建立文档词频矩 阅读全文
posted @ 2016-04-21 16:45 sunxs 阅读(198) 评论(0) 推荐(0)

2015年11月17日

摘要: 1.新建分词文件mkdir inputcd inputecho "hello world" >test1.txtecho "hello hadoop" > test2.txt2.上传到HDFSbin/hadoop dfs -put ../input in3.执行hadoop examples中的wo... 阅读全文
posted @ 2015-11-17 15:14 sunxs 阅读(90) 评论(0) 推荐(0)

导航