摘要: 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。一般来说用CRF实现的分词工具的处理速度是比较慢的(训练CRF模型是非常耗时的),但是精度高,涉及CRF的分词工具有CRF++,Stanford分词工具。 Bakeof... 阅读全文
posted @ 2015-11-23 15:48 StevenLuke 阅读(731) 评论(0) 推荐(0) 编辑
摘要: 如何提高阅读源代码的效率 记得在开源流行之前,我看过的代码紧限于所参与的项目,能有个几万行就不错哩。后来很多优秀开源项目都相继蹦出来了,阅读的代码量那叫一个大呀!不得不看。我现在掉到android这个大坑里,每天都要看很多源代码。以前做过J2EE,看Struts2、Lucene、OSW... 阅读全文
posted @ 2015-11-23 14:35 StevenLuke 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 打好jar包之后还需要更改清单文件的. 打开生成的jar,里面有一个MANIFEST.MF的文件把它打开. 然后有一行Main-Class,没有就加上。如: Manifest-Version: 1.0 Main-Class: 类的全地址 要在后面加上你的主main class文件.... 阅读全文
posted @ 2015-11-23 14:02 StevenLuke 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 中文分词 最短路分词 N-最短路分词 CRF分词 索引分词 极速词典分词 用户自定义词典 词性标注 命名实体识别 中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别 关键词提取 TextRank关键词提取... 阅读全文
posted @ 2015-11-23 12:50 StevenLuke 阅读(98) 评论(0) 推荐(0) 编辑