为什么MIP-Cache存在
在去年十月的一篇 博客文章 提到 MIP 加速器是由 MIP-HTML, MIP-JS 和 MIP-Cache 三个模块共同产生加速效果的。MIP-HTML 和 MIP-JS 都是开源的,在 GitHub 上可以访问。但 MIP-Cache 是百度提供的,所有从百度搜索结果页打开的页面都是 MIP-Cache 的页面。那么,为什么 MIP-Cache 存在呢?
1. CDN 加速
CDN (Content Delivery Network) 加速原理,简单来说就是在不同地点建立内容缓存节点。通过负载均衡技术,将用户的请求定向到最合适的缓存服务器上去获取内容。
MIP-Cache 可以理解为一套 CDN 缓存系统。当用户从百度搜索结果页访问 MIP 页面时,请求首先会发到 MIP-Cache CDN 服务器,如果页面存在,则从 CDN 直接返回静态页面;如果页面不存在或过期,则会请求第三方服务器 (或站长自己使用的 CDN)。本次返回的符合 MIP 规范的页面会同时加入 MIP-Cache,为下次页面请求做准备。
2. 缓存静态文件,同源策略加速
百度 MIP-Cache 给所有符合 MIP 规范,能通过 MIP 校验 的 MIP 页面提供静态文件的缓存服务,静态文件包括图片,外链 CSS 文件 (不推荐) 等。在缓存静态文件的同时,HTML 页面本身也会被改写,引用图片的地址会被修改为 MIP-Cache 中的图片地址。
缓存静态文件带来最大的好处是避免从不同域名下读取静态文件,使用同源策略减少 DNS 解析时间,能够加速加载速度。
3. 百度搜索的预取加速
页面预取是指在搜索结果页展示后,用户点击某条结果之前,搜索引擎就开始预测用户可能点击的结果,提前加载落地页的内容。在用户真正点击这条结果时,结果的内容已经从远端进入了浏览器缓存,省去了网络加载时间。
搜索预取会请求 MIP-Cache 内容,所有进入 MIP-Cache 的页面都被认为是合法的 MIP 页(原理见下文)。目前 MIP 项目组正在讨论预取的技术方案,请关注博客进展。
附: MIP-Cache 的更新和校验策略
考虑到站长有更新页面的需求,MIP-Cache 会定期重新抓取 MIP 页并进行校验。
在 MIP-Cache 中:
- 页面的缓存时间为 52 分钟-5 天(由该页面用户点击量和站点本身稳定性决定)。
- 图片缓存时间为 10 天。
- MIP-JS 组件文件的缓存时间为 10 分钟。
在当前文件过期后,MIP-Cache 会重新抓取资源。如果是 HTML 页面,MIP-Cache 还会对页面文件进行 MIP 规范校验。如果此时页面内容不再符合 MIP 规范,MIP-Cache 就不再缓存这个页面了。这样,所有 MIP-Cache 中的页面都是最新的,并且符合 MIP 规范。
如果要快速清理 MIP-Cache 内容,请参考站长平台 MIP-Cache 说明。注意,对于同一个站点,每 100 秒最多清理 10 条。
MIP-Cache 使用方法及 URL 生成规则,请查阅 MIP 官方文档 《MIP-Cache 规范》。