摘要: 今天主要对从CSDN爬取的标题利用jieba(结巴)进行分词,但在分词过程中发现,如大数据被分成了大/数据,云计算被分隔成了云/计算。 后来又从百度百科 》信息领域爬取了相关词语作为词典,预计今天晚上完成切词任务。 其中分割代码如下: 1 import jieba 2 import io 3 4 # 阅读全文
posted @ 2020-02-09 22:00 雾霾王者 阅读(528) 评论(0) 推荐(0) 编辑