维基下载页面说明(指南)
中文维基下载地址: https://dumps.wikimedia.org/zhwiki/
英文维基下载地址: https://dumps.wikimedia.org/enwiki/
当我们打开维基下载页面时候,一脸懵逼,根本不知道所需要哪些文件,为此,进行了一些调研。
1. Articles, templates, media/file descriptions, and primary meta-pages, in multiple bz2 streams, 100 pages per stream:包含了许多的文章,也有许多的日志信息等等..
Recombine multiple bz2 streams:上述整合的文件压缩。
Index.txt.bz2: 每个词条的编号信息。
2. All pages with complete edit history (.7z)和All pages with complete page edit history (.bz2)内容相同。(大小不一样是因为压缩方式不同。)
都是文章的edit的历史,包括哪个用户修改了什么。
3. 每个user和page的日志记录。混乱,没有用。
4. 我们所需要的文件,包含文章正文摘要等信息。
5.所有页面的标题
6. 词条开放的分类链接
7. 词条重定向
8. 词条页面内容外链
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)