打赏
摘要: 实验对比了一下三种切分方式: 1,2 : nltk.word_tokenize : 分离缩略词,(“Don't” =>'Do', "n't") 表句子切分的“,” "." 单独成词。 3 : TreebankWordTokenizer: 分离缩略词, 表句子切分的 “,"单独成词,句号“.”被删去。 阅读全文
posted @ 2018-12-17 10:40 listenviolet 阅读(3573) 评论(0) 推荐(0) 编辑