[软件工具百科] 互联网资源历史快照归档站点与数字图书馆

1 archive.org

  • 官网
  • 网站简介
  • https://archive.org 由 Brewster Kahle 创办,是一个非营利性的数字图书馆
  • 从 1996 年起,它每隔一会就会抓取各种各样的网页、视频、图片等资料,保存在 “ 图书馆 ” 。
  • 目前图书馆里存了 8660 亿个网页,1200 万个视频,490 万张图片和 110 万个软件程序。

点进网站,从 MJ 演唱会视频,到 1999 年测试版的 Google 搜索页面,再到你多年前送给凤姐的表白,都会重新进入你的世界。

2 archive.today/md (今日档案)

  • 官网
  • 网站简介

archive.today 于 2012 年创办。从名字和功能上看,它类似于http://archive.org ,可以备份网页。
但它俩之间还是有个很大区别—— http://archive.org 类似于搜索引擎,绝大多数资料都是爬虫自动抓取的。所以一直以来他们都遵守 robot.txt 。
robot.txt 是互联网里通行的一个君子协议。通过它,网站可以告诉搜索引擎,哪些东西它不能抓。百度里搜不到微信文章和淘宝商品,就是因为 robot.txt 。

但 archive.today 不遵守这个协议,即便网站不让它存,它也会霸王硬上弓。
不过,这也不能说 archive.today 缺德。 因为它并非自动抓取别人的网站,只有用户上传某个网页时,它才会抓取。
目前,archive.today 已经存储了 5 亿个网页。虽然远不及 http://archive.org ,但这种大家主动寻求备份的网页,相对来说,它的意义和价值会更大点。

X 参考文献

这个不讲“道德”的网站,成了千万网友最爱的白嫖工具 - Zhihu/差评

posted @ 2024-06-11 19:45  千千寰宇  阅读(412)  评论(0)    收藏  举报