辛星浅析站点中的sitemap

      所谓sitemap。通俗来说就是"站点地图",sitemap文件主要包括了站点中的有效连接,它会便于搜索引擎的抓取和收录,假设没有sitemap文件,蜘蛛就须要一个一个的通过我们站点中的超链接来进行抓取。有了sitemap之后。搜索引擎直接读取该文件就能够了,它能够让搜索引擎抓取我们的网页更加有效。

      最通用的也是最简单的sitemap形式的文件。就是xml文件。我们在当中列出站点中的网址,以及关于每一个网址的一些元数据。这些元数据一般是上次更新的时间、更新的频率、重要程度等等。它能够让搜索引擎的抓取更加智能。一般来说,百度sitemap支持三种格式:txt文本格式、xml格式、sitemap索引格式。

     以下是www.sitemaps.org官方的定义,它引用自http://www.sitemaps.org/zh_CN/,详细内容为:

Sitemap 可方便管理员通知搜索引擎他们站点上有哪些可供抓取的网页。最简单的 Sitepmap 形式。就是 XML 文件。在当中列出站点中的网址以及关于每一个网址的其它元数据(上次更新的时间、更改的频率以及相对于站点上其它网址的重要程度为何等),以便搜索引擎能够更加智能地抓取站点。

网络抓取工具一般会通过站点内部和其它站点上的链接查找网页。

Sitemap 会提供此数据以便同意支持 Sitemap 的抓取工具抓取 Sitemap 提供的全部网址,并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包括在搜索引擎中。但可向网络抓取工具提供一些提示以便它们更有效地抓取站点。 Sitemap 0.90 是根据创意公用授权-同样方式共享 (Attribution-ShareAlike Creative Commons License) 的条款提供的。并被广泛採用,受 Google、Yahoo! 和 Microsoft 在内的众多厂商的支持。

      而我们写sitemap.xml的时候一般遵循例如以下格式就能够了:

 

<?xml version=”1.0” encoding=”UTF-8”?>

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”>

<url>

<loc>http://www.xinxingjiaocheng.com/</loc>

<lastmod>2015-06-01</lastmod>

<changefreq>monthly</changefreq>

<prority>1.0</prority>

</url>

..其它url列表

</urlset>

  这里须要说一下的就是,当中几个标签的含义:

   (1)changefreq:页面内容更新频率

   (2)lastmod:页面最后改动时间

   (3)loc:页面永久链接地址

   (4)priority:相对于其它页面的优先权

   (5)url:前面四个标签的父标签

   (6)urlset:前面五个标签的父标签

    须要注意的两点就是:

   (1)而xmlns则是定义了此xml的命名空间。相当于网页文件里的<html>标签一样的作用。

   (2)还有就是loc标签对中的特殊字符必须进行转义。比方大于号变成&gt;这样的形式。


    对于lastmod的说明:

    (1)对于lastmod就是最后更新时间

    (2)一般机器人在索引此链接之前,它会首先和上次索引记录的最后更新时间进行比較

    (3)假设时间一样就会跳过不再索引

    (4)假设我们的链接内容基于上次索引时的内容发生了改变,那么这个值也应该对应更新。

    (5)对于这个时间表述,我们使用ISO  8601中指定的时间格式进行描写叙述就可以.

    (6)最全的时间格式为:  YYYY-MM-DDThh:mmTZD    比方 2015-06-01T19:02:00+08:00

    (7)这里的TZD指的是本地时间区域标记, 比方东八区的话,我们一般用+08:00来表示

     

     对于changefreq来说。我们一般须要:

    (1)对于站点首页,我们一般使用always。来表示"常常"

    (2)对于非常久之前的链接,我们能够用yearly。来表示"每年"

    (3)其它经常使用的时间标记为:always、hourly、daily、weekly、monthly、yearly


     对于priority,我们说明例如以下:

     (1)它是指定了此链接相对于其它链接的优先权比值

     (2)这个值介于0.0到1.0之间。值越高,权重越高


     以下是星哥对sitemap的几个小建议:

     (1)一般来说,对于较大的站点来说。能够把sitemap分拆为若干个sitemap

     (2)每一个sitemap最多不能超过五万个url,并且压缩之前不得大于10MB

     (3)sitemap能够压缩,这里推荐使用gzip压缩。能够节约流量

     (4)能够在robots.txt中的最后加入一行来指定sitemap的位置,范例:  Sitemap:   http://www.a.com/sitemap.xml


     只是对于sitemap是否实用这个问题。经过我的測试。得到的结果是:不一定实用。由于各大搜索引擎都具有比較强的抓取页面的能力,仅仅要我们的内链做的没有致命问题,那么收录一般都是没问题的。

还有就是对于站点层次结构复杂的时候,并且站点内容更新频繁的时候。那么这个sitemap的变更会很频繁,因此个人感觉它的效果并不大。




posted on 2017-05-19 16:35  ljbguanli  阅读(223)  评论(0编辑  收藏  举报