维基百科镜像处理

维基百科语料资源丰富，而维基百科又提供数据库下载，是语料资源来源的良好途径。

1. 中文维基数据下载

下载dump：https://dumps.wikimedia.org/zhwiki/latest/，维基数据主要包含以下几部分

zhwiki-latest-pages-articles.xml.bz2	词条正文
zhwiki-latest-redirect.sql	词条重定向（同义词）
zhwiki-latest-pagelinks.sql	词条页面内容外链
zhwiki-latest-page.sql	词条标题及摘要
zhwiki-latest-categorylinks.sql	词条开放分类链接

本文处理的数据是： zhwiki-latest-pages-articles.xml.bz2

2. 中文维基数据解析

下载后需要对该xml文件的压缩包作处理，所幸gensim的WikiCorpus已经预置了部分处理。几行关键的python代码如下：

input_file = "zhwiki-latest-pages-articles.xml.bz2"wiki = WikiCorpus(input_file, lemmatize=False, dictionary={}) for text in wiki.get_texts(): str_line = bytes.join(b' ', text).decode() #以下可以存入文件或数据库

posted @ 2017-06-25 19:43 zhaobeng 阅读(5874) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

zhaobeng

维基百科镜像处理

公告