维基下载页面说明(指南)
中文维基下载地址: https://dumps.wikimedia.org/zhwiki/
英文维基下载地址: https://dumps.wikimedia.org/enwiki/
当我们打开维基下载页面时候,一脸懵逼,根本不知道所需要哪些文件,为此,进行了一些调研。
1. Articles, templates, media/file descriptions, and primary meta-pages, in multiple bz2 streams, 100 pages per stream:包含了许多的文章,也有许多的日志信息等等..
Recombine multiple bz2 streams:上述整合的文件压缩。
Index.txt.bz2: 每个词条的编号信息。
2. All pages with complete edit history (.7z)和All pages with complete page edit history (.bz2)内容相同。(大小不一样是因为压缩方式不同。)
都是文章的edit的历史,包括哪个用户修改了什么。
3. 每个user和page的日志记录。混乱,没有用。
4. 我们所需要的文件,包含文章正文摘要等信息。
5.所有页面的标题
6. 词条开放的分类链接
7. 词条重定向
8. 词条页面内容外链