2016年1月19日

Hadoop上的中文分词与词频统计实践 (有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html)

摘要: 解决问题的方案Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/。小虾的这个统计武侠小说人名热度的段子很有意思,照虎画猫来实践一下。与其不... 阅读全文

posted @ 2016-01-19 21:51 1130136248 阅读(508) 评论(0) 推荐(0) 编辑

Java实现使用IK Analyzer实现中文分词

摘要: 需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IK Analyzer):[java] view plaincopypackage com.haha.test; ... 阅读全文

posted @ 2016-01-19 21:17 1130136248 阅读(3124) 评论(0) 推荐(0) 编辑

11大Java开源中文分词器的使用方法和分词效果对比http://my.oschina.net/apdplat/blog/412921?p=2#comments

摘要: 本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也... 阅读全文

posted @ 2016-01-19 11:34 1130136248 阅读(182) 评论(0) 推荐(0) 编辑

HBase数据的导入和导出

摘要: 查阅了几篇中英文资料,发现有的地方说的不是很全部,总结在此,共有两种命令行的方式来实现数据的导入导出功能,即备份和还原。1 HBase本身提供的接口其调用形式为:1)导入./hbase org.apache.hadoop.hbase.mapreduce.Driver import 表名 数据文件位... 阅读全文

posted @ 2016-01-19 11:07 1130136248 阅读(1876) 评论(0) 推荐(0) 编辑

浅谈hbase表中数据导出导入(也就是备份)

摘要: 转自:http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=23916356&id=3321832最近因为生产环境hbase中某张表的数据要导出到测试环境(数据不多,大概200W条左右),如果用程序掉接口导入的话太慢,所以考虑直接用hbas... 阅读全文

posted @ 2016-01-19 11:06 1130136248 阅读(10213) 评论(0) 推荐(0) 编辑

14款中文分词开源软件

摘要: http://www.oschina.net/project/tag/264/segment 开源中国社区LGPLJava 在线查看 IKAnalyzer 源码»跨平台2008年12月03日(国产软件)http://www.oschina.net/p/ikanalyzer或http://code.g... 阅读全文

posted @ 2016-01-19 11:05 1130136248 阅读(298) 评论(0) 推荐(0) 编辑

导航