摘要: 新闻语料预处理 本文使用的是搜狗新闻语料库,原始语料是类似下图中xml格式,首先需要提取中语料中正真的新闻内容,就是<content>中对应的文本。还需要过滤一些特殊字符,以及半角和全角的转换问题。 语料的下载,官方地址:https://www.sogou.com/labs/resource/cs. 阅读全文
posted @ 2019-05-25 18:31 黄然小悟 阅读(671) 评论(0) 推荐(0) 编辑