摘要: 前面的一些分词工具都是写好的的规则 如果我们想按照自己的规则进行分词 可以使用正则分词器 1.RegexpTokenizer类 from nltk.tokenize import RegexpTokenizer text = " I won't just survive, Oh, you will 阅读全文
posted @ 2019-01-08 09:10 可爱小小畅 阅读(3287) 评论(0) 推荐(0) 编辑
摘要: str和bytes类型之间的常用转码方式 ----原文地址https://www.cnblogs.com/dpf-learn/p/8028121.html 1、str to bytes:(3种方式) 2、bytes to str (3种方式) 阅读全文
posted @ 2019-01-08 09:07 可爱小小畅 阅读(139) 评论(0) 推荐(0) 编辑