维基下载页面说明(指南)

中文维基下载地址: https://dumps.wikimedia.org/zhwiki/

英文维基下载地址: https://dumps.wikimedia.org/enwiki/

 

当我们打开维基下载页面时候,一脸懵逼,根本不知道所需要哪些文件,为此,进行了一些调研。

1.    Articles, templates, media/file descriptions, and primary meta-pages, in multiple bz2 streams, 100 pages per stream:包含了许多的文章,也有许多的日志信息等等..

       Recombine multiple bz2 streams:上述整合的文件压缩。

       Index.txt.bz2: 每个词条的编号信息。

    

2.  All pages with complete edit history (.7z)和All pages with complete page edit history (.bz2)内容相同。(大小不一样是因为压缩方式不同。)

     都是文章的edit的历史,包括哪个用户修改了什么。

3. 每个user和page的日志记录。混乱,没有用。

  

 4. 我们所需要的文件,包含文章正文摘要等信息。      

  

5.所有页面的标题

  

6. 词条开放的分类链接

  

7. 词条重定向  

    

8. 词条页面内容外链

    

posted @   _Meditation  阅读(1607)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示