摘要: 从github上下载源代码后,打开 文件夹 jieba,找到__init__.py,结巴分词最主要的函数 cut 就定义在这个文件中。这个函数的前半部分主要是根据用户指定的模式 用 正则表达式 将输入的文本 分块(block)。然后针对每一块进行分词,默认情况(精确模式)下使用的 块的分词函数叫__... 阅读全文
posted @ 2013-10-01 16:47 爱知菜 阅读(351) 评论(0) 推荐(0) 编辑