摘要: 之前已经了解了使用nltk库,将文本作为参数传入相应函数进行切分的方法,下面看看使用正则表达式如何来进行文本切分。 1. 使用正则表达式切分 1.1 通过RegexpTokenizer 进行切分。先导入 RegexpTokenizer 模块,然后构建一个与文本中的标识符相匹配的正则表达式。将此正则表 阅读全文
posted @ 2019-05-16 14:58 正态分个布 阅读(1893) 评论(0) 推荐(0) 编辑