摘要: 因为想把一段文字分词,所以,需要明确一定的词语关系。在网上随便下载了一篇中文小说。随便的txt小说,就1mb多。要数数这1mb多的中文到底有多少字,多少分词,这些分词的词性是什么样的。这里是思路1)先把小说读到内存里面去。2)再把小说根据正则表达法开始分词,获得小说中汉字总数3)将内存中的小说每段POST到提供分词服务的API里面去,获取分词结果4)按照API说明,取词素材:1、linux/GNU => debian/ubuntu 12.04/Linuxmint 13 Preferred2、python3、中文分词API, 这里我们使用的是 http://www.vapsec.com/f 阅读全文
posted @ 2014-03-19 14:21 spaceship9 阅读(5467) 评论(0) 推荐(0) 编辑