会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
sunxs
2016年4月21日
R 文本分析
摘要: 1. 分词Rwordseg介绍: 采用HMM分词,命令segmentCN 自定义词典insertWords(c("我要")) 用于识别人名segment.options(isNameRecognition = TRUE) 方案:Rwordseg分词,DocumentTermMatrix建立文档词频矩
阅读全文
posted @ 2016-04-21 16:45 sunxs
阅读(198)
评论(0)
推荐(0)
2015年11月17日
hadoop实践-WordCount
摘要: 1.新建分词文件mkdir inputcd inputecho "hello world" >test1.txtecho "hello hadoop" > test2.txt2.上传到HDFSbin/hadoop dfs -put ../input in3.执行hadoop examples中的wo...
阅读全文
posted @ 2015-11-17 15:14 sunxs
阅读(90)
评论(0)
推荐(0)
导航
博客园
首页
新随笔
联系
订阅
管理
公告