辛星浅析站点中的sitemap
所谓sitemap。通俗来说就是"站点地图",sitemap文件主要包括了站点中的有效连接,它会便于搜索引擎的抓取和收录,假设没有sitemap文件,蜘蛛就须要一个一个的通过我们站点中的超链接来进行抓取。有了sitemap之后。搜索引擎直接读取该文件就能够了,它能够让搜索引擎抓取我们的网页更加有效。
最通用的也是最简单的sitemap形式的文件。就是xml文件。我们在当中列出站点中的网址,以及关于每一个网址的一些元数据。这些元数据一般是上次更新的时间、更新的频率、重要程度等等。它能够让搜索引擎的抓取更加智能。一般来说,百度sitemap支持三种格式:txt文本格式、xml格式、sitemap索引格式。
以下是www.sitemaps.org官方的定义,它引用自http://www.sitemaps.org/zh_CN/,详细内容为:
Sitemap 可方便管理员通知搜索引擎他们站点上有哪些可供抓取的网页。最简单的 Sitepmap 形式。就是 XML 文件。在当中列出站点中的网址以及关于每一个网址的其它元数据(上次更新的时间、更改的频率以及相对于站点上其它网址的重要程度为何等),以便搜索引擎能够更加智能地抓取站点。而我们写sitemap.xml的时候一般遵循例如以下格式就能够了:网络抓取工具一般会通过站点内部和其它站点上的链接查找网页。
Sitemap 会提供此数据以便同意支持 Sitemap 的抓取工具抓取 Sitemap 提供的全部网址,并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包括在搜索引擎中。但可向网络抓取工具提供一些提示以便它们更有效地抓取站点。 Sitemap 0.90 是根据创意公用授权-同样方式共享 (Attribution-ShareAlike Creative Commons License) 的条款提供的。并被广泛採用,受 Google、Yahoo! 和 Microsoft 在内的众多厂商的支持。
<?xml version=”1.0” encoding=”UTF-8”?> <urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”> <url> <loc>http://www.xinxingjiaocheng.com/</loc> <lastmod>2015-06-01</lastmod> <changefreq>monthly</changefreq> <prority>1.0</prority> </url> ..其它url列表 </urlset>
这里须要说一下的就是,当中几个标签的含义:
(1)changefreq:页面内容更新频率
(2)lastmod:页面最后改动时间
(3)loc:页面永久链接地址
(4)priority:相对于其它页面的优先权
(5)url:前面四个标签的父标签
(6)urlset:前面五个标签的父标签
须要注意的两点就是:
(1)而xmlns则是定义了此xml的命名空间。相当于网页文件里的<html>标签一样的作用。
(2)还有就是loc标签对中的特殊字符必须进行转义。比方大于号变成>这样的形式。
对于lastmod的说明:
(1)对于lastmod就是最后更新时间
(2)一般机器人在索引此链接之前,它会首先和上次索引记录的最后更新时间进行比較
(3)假设时间一样就会跳过不再索引
(4)假设我们的链接内容基于上次索引时的内容发生了改变,那么这个值也应该对应更新。
(5)对于这个时间表述,我们使用ISO 8601中指定的时间格式进行描写叙述就可以.
(6)最全的时间格式为: YYYY-MM-DDThh:mmTZD 比方 2015-06-01T19:02:00+08:00
(7)这里的TZD指的是本地时间区域标记, 比方东八区的话,我们一般用+08:00来表示
对于changefreq来说。我们一般须要:
(1)对于站点首页,我们一般使用always。来表示"常常"
(2)对于非常久之前的链接,我们能够用yearly。来表示"每年"
(3)其它经常使用的时间标记为:always、hourly、daily、weekly、monthly、yearly
对于priority,我们说明例如以下:
(1)它是指定了此链接相对于其它链接的优先权比值
(2)这个值介于0.0到1.0之间。值越高,权重越高
以下是星哥对sitemap的几个小建议:
(1)一般来说,对于较大的站点来说。能够把sitemap分拆为若干个sitemap
(2)每一个sitemap最多不能超过五万个url,并且压缩之前不得大于10MB
(3)sitemap能够压缩,这里推荐使用gzip压缩。能够节约流量
(4)能够在robots.txt中的最后加入一行来指定sitemap的位置,范例: Sitemap: http://www.a.com/sitemap.xml
只是对于sitemap是否实用这个问题。经过我的測试。得到的结果是:不一定实用。由于各大搜索引擎都具有比較强的抓取页面的能力,仅仅要我们的内链做的没有致命问题,那么收录一般都是没问题的。
还有就是对于站点层次结构复杂的时候,并且站点内容更新频繁的时候。那么这个sitemap的变更会很频繁,因此个人感觉它的效果并不大。