会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
黄然小悟的博客笔记
机器学习、自然语言处理、搜索技术爱好者
博客园
首页
新随笔
联系
管理
2019年5月25日
NLP入门系列一:搜狗新闻语料处理和word2vec词向量的训练
摘要: 新闻语料预处理 本文使用的是搜狗新闻语料库,原始语料是类似下图中xml格式,首先需要提取中语料中正真的新闻内容,就是<content>中对应的文本。还需要过滤一些特殊字符,以及半角和全角的转换问题。 语料的下载,官方地址:https://www.sogou.com/labs/resource/cs.
阅读全文
posted @ 2019-05-25 18:31 黄然小悟
阅读(671)
评论(0)
推荐(0)
编辑