会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
NLP in (the) shell
The NLP moments...
博客园
首页
新随笔
联系
订阅
管理
2017年11月25日
中文维基数据处理 - 1. 下载与清洗
摘要: 1. 数据下载 一些重要的链接: 1. "最新转储" 需要 这个文件 2. "中文维基的页面统计信息" 目前内容页面数大约是 978K 2. 数据处理 选择了 "Gensim" 这个主题工具包进行数据预处理。 2.1 xml 转 json "scripts.segment_wiki" 然后就转换成了
阅读全文
posted @ 2017-11-25 11:10 nlp-in-shell
阅读(1483)
评论(0)
推荐(0)
编辑
公告