摘要: 数据:本文采用的数据为搜狗新闻语料文本http://www.sogou.com/labs/resource/cs.php 首先逐个读入已下载的txt文件内容,正则表达出URL(新闻类别)和content(新闻内容) 具体代码如下: SamplesGen.py 1.字符数小于30的将不被content 阅读全文
posted @ 2019-09-04 20:35 悟空``` 阅读(272) 评论(0) 推荐(0) 编辑