摘要: 1. 数据下载 一些重要的链接: 1. "最新转储" 需要 这个文件 2. "中文维基的页面统计信息" 目前内容页面数大约是 978K 2. 数据处理 选择了 "Gensim" 这个主题工具包进行数据预处理。 2.1 xml 转 json "scripts.segment_wiki" 然后就转换成了 阅读全文
posted @ 2017-11-25 11:10 nlp-in-shell 阅读(1483) 评论(0) 推荐(0) 编辑