2016 年 1月 19 日随笔档案 - 1130136248

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）

摘要：解决问题的方案Hadoop上的中文分词与词频统计实践首先来推荐相关材料：http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/。小虾的这个统计武侠小说人名热度的段子很有意思，照虎画猫来实践一下。与其不... 阅读全文

posted @ 2016-01-19 21:51 1130136248 阅读(511) 评论(0) 推荐(0) 编辑

Java实现使用IK Analyzer实现中文分词

摘要：需要在项目中引入：IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IK Analyzer):[java] view plaincopypackage com.haha.test; ... 阅读全文

posted @ 2016-01-19 21:17 1130136248 阅读(3130) 评论(0) 推荐(0) 编辑

11大Java开源中文分词器的使用方法和分词效果对比http://my.oschina.net/apdplat/blog/412921?p=2#comments

摘要：本文的目标有两个：1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也... 阅读全文

posted @ 2016-01-19 11:34 1130136248 阅读(182) 评论(0) 推荐(0) 编辑

HBase数据的导入和导出

摘要：查阅了几篇中英文资料，发现有的地方说的不是很全部，总结在此，共有两种命令行的方式来实现数据的导入导出功能，即备份和还原。1 HBase本身提供的接口其调用形式为：1）导入./hbase org.apache.hadoop.hbase.mapreduce.Driver import 表名数据文件位... 阅读全文

posted @ 2016-01-19 11:07 1130136248 阅读(1884) 评论(0) 推荐(0) 编辑

浅谈hbase表中数据导出导入（也就是备份）

摘要：转自：http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=23916356&id=3321832最近因为生产环境hbase中某张表的数据要导出到测试环境（数据不多，大概200W条左右），如果用程序掉接口导入的话太慢，所以考虑直接用hbas... 阅读全文

posted @ 2016-01-19 11:06 1130136248 阅读(10216) 评论(0) 推荐(0) 编辑

14款中文分词开源软件

摘要： http://www.oschina.net/project/tag/264/segment 开源中国社区LGPLJava 在线查看 IKAnalyzer 源码»跨平台2008年12月03日（国产软件）http://www.oschina.net/p/ikanalyzer或http://code.g... 阅读全文

posted @ 2016-01-19 11:05 1130136248 阅读(304) 评论(0) 推荐(0) 编辑

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）

Java实现使用IK Analyzer实现中文分词

11大Java开源中文分词器的使用方法和分词效果对比http://my.oschina.net/apdplat/blog/412921?p=2#comments

HBase数据的导入和导出

浅谈hbase表中数据导出导入（也就是备份）

14款中文分词开源软件

导航

公告

Hadoop上的中文分词与词频统计实践 （有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）

Java实现使用IK Analyzer实现中文分词

11大Java开源中文分词器的使用方法和分词效果对比http://my.oschina.net/apdplat/blog/412921?p=2#comments

HBase数据的导入和导出

浅谈hbase表中数据导出导入（也就是备份）

14款中文分词开源软件

导航

公告

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）