搜索引擎

第一节：
搜索引擎是帮助用户查找存储在个人电脑、计算机网络如互联网上的信息的软件程序。用户输入搜索项目，通常是通过录入一个关键字或短语，搜索引擎通过扫描被搜索的计算机和计算机网络，或者分解（分析）它们数据的索引，返回万维网站点、个人电脑文件或文档的列表。

搜索引擎（Search Engines）是一些能够主动搜索信息并将其自动索引的Web网站，其索引内容存储在可供检索的大型数据库中，建立索引和目录服务。它是一个为你提供信息“检索”服务的网站，它使用某些程序把互联网上的所有信息归类，以帮助人们在茫茫网海中搜寻到需要在信息。

第二节：搜索引擎的工作原理

    搜索引擎要知道网上的新生事物，就得派人出去收集，每天都有新的网站产生，每天都有网站内容的更新，而且这些产生的网站数量、更新的网站内容是爆炸式的，靠人工是不可能完成这个任务的，所以搜索引擎的发明者就设计了计算机程序，派它们来执行这个任务。
    探测器有很多叫法，也叫 Crawler(爬行器)、spider(蜘蛛)、robot（机器人）。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息，Google 把它的探测器叫做 Googlebot，百度就叫 Baiduspider,Yahoo 称为Slurp，无论它们叫什么，它们都是人们
编制的计算机程序，由它们不分昼夜的访问各个网站，取回网站的内容、标签、图片等，然后依照搜索引擎的算法给它们定制索引。

网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
   当抓取到这些网页后，由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在 URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面文字中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

    建立网页索引数据库后，当用户输入关键词搜索，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来，返回给用户。

1.2.2. 如何辨别搜索引擎机器人身份

    目前，主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份：通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称；用主机名查找IP地址以确认该主机名与IP地址匹配。
    首先，使用DNS反向查询（Reverse DNS Lookup），找出机器人IP地址对应的主机名称。
主流搜索引擎的主机名称通常情况下应是这样的：
? Google ：主机名称应包含于 googlebot.com 域名中，如： crawl-66-249-66-1.googlebot.com；
? MSN ：主机名称应包含于 search.live.com 域名中，如：   livebot-207-46-98-149.search.live.com；
? Yahoo：主机名称应包含于inktomisearch.com域名中，如： ab1164.inktomisearch.com。
    最后，做一次DNS查询，用主机名查找IP地址（Forward DNS Lookup），以确认该主机名与IP地址匹配。由此证明该机器人是合法的。

第三节：SiteMap 介绍

    Sitemaps 协议使你能够告知搜索引擎网站中可供抓取的网址。最简便的方式就是，使用 Sitemaps 协议的 Sitemaps 就是列有某个网站所有网址的 XML 文件。此协议可高度扩展，因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息（上
次更新的时间、更改的频率、与网站中其他网址相比它的重要性等），以便搜索引擎可以更智能地抓取该网站。

    Sitemaps 在用户无法通过可浏览界面访问网站的所有区域时作用尤其明显。（通常，指用户无法通过追踪链接访问网站的特定页面或区域。）

1.3.2. Sitemaps 文件的位置

Sitemaps 文件的位置决定该 Sitemaps 中所能包含的一组网址。位于
http://example.com/catalog/sitemap.gz 的 Sitemaps 文件可包含以
http://example.com/catalog/ 开始的任何网址，但不能包含以
http://example.com/images/ 开始的网址。

1.3.3.XML Sitemaps 格式

Sitemaps 协议格式由 XML 标记组成。Sitemaps 的所有数据数值应为实体转义过的。文件
本身应为 UTF-8 编码的。
以下是只包含一个网址并使用所有可选标记的 Sitemaps 示例。可选标记为斜体。

<?xml version="1.0" encoding="UTF-8"?>
< urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
   < url>
    < loc>http://www.example.com/</loc>
    < lastmod>2005-01-01</lastmod>
    < changefreq>monthly</changefreq>
    < priority>0.8</priority>
   </url>
</urlset>

Sitemaps 应：? 以 <urlset> 开始标记开始，以 </urlset> 结束标记结束。
?               每个网址包含一个作为父标记的 <url> 条目。
?               每一个 <url> 父标记包括一个 <loc> 子标记条目。
XML 标记定义
以下对可用 XML 标记进行说明。
      <urlset> 必填封装此文件并提供当前协议标准作为参考。
       <url>    必填每个网址条目有一个父标记。剩余标记为此标记的子标记。
       <loc>    必填该页的网址。如果您的 Web 服务器需要网址的话，此网址应以协议开始
               （例如：http）并以斜线结尾。此值应少于 2048 个字符。
    <lastmod>   可选该文件上次修改的日期。此日期应采用 W3C Datetime 格式。如果需要的话，此格式允许省略时间部分，而仅使用 YYYY-MM-DD。
   <changefreq> 可选页面可能发生更改的频率。此值为搜索引擎提供一般性信息，可能与搜索引擎抓取页面的频率不完全相关。有效值为：
? always ? hourly ? daily ? weekly ? monthly ? yearly    never

<priority> 可选此网址的优先级与您网站上其他网址的优先级相关。有效值范围从 0.0 到 1.0。
实体转义
我们要求您的 Sitemaps 文件为 UTF-8 编码（通常在保存文件时可以做到）。对于所有的XML 文件，任何数据数值（包括网址）都应对下表中列出的字符使用实体转义码。

    字符      转义码
   & 符号 & &
   单引号 ' '
   双引号 " "
    大于   > >
    小于   < <

请注意，未压缩的 Sitemaps 文件不得大于 10MB。

1.3.4.创建 SiteMap

可以通过以下多种方式创建 Sitemap：

1.3.4.1 根据 Sitemap 协议创建 Sitemap：

   1. 创建一个文本文件并将其带 .xml 扩展名保存。
   2. 将以下内容添加到文件顶部：
       <?xml version="1.0" encoding="UTF-8"?>
        <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   3. 将以下内容添加到文件底部：      </urlset>
   4. 为各网址创建一个条目。 <loc> 为必需，其余标记为可选。
      <url>
          <loc>http://www.example.com/</loc>
          <lastmod>2005-01-01</lastmod>
          <changefreq>monthly</changefreq>
          <priority>0.8</priority>
      </url>
   5. 将 Sitemap 上传到您的网站。然后使用网站管理员工具将其提交给 Google。

1.3.4.2.Sitemap 生成器

1.3.4.3 使用第三方工具。

1.3.5. 使用 Sitemaps 索引文件

1.3.6. 验证您的 Sitemaps

1.3.7.提交 SiteMap
SiteMap 制作完成以后直接传到空间上（只要传到网络上，能访问就行），然后在各个搜索网站提交。

向 Google 提交网站地图 Sitemap: 通过http://www.google.com/webmasters 管理提交；

向 Yahoo!提交网站地图 Sitemap: 通过http://siteexplorer.search.yahoo.com管理提交；

向百度 Baidu 提交网站地图 Sitemap: 没办法，现在百度不支持 Sitemap。但可通过http://www.baidu.com/search/url_submit.html 来提交你的网址。百度自行搜索，更新速度很快。

第四节：Robots.txt 介绍

1.4.1.什么是 Robots.txt
robots.txt 是一个纯文本文件，通过在这个文件中声明该网站中不想被 robots 访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在 robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt 必须放置在一个站点的根目录下，而且文件名必须全部小写。举例来说，当
spider 访问一个网站（比如 http://www.abc.com）时，首先会检查该网站中是否存在http://www.abc.com/robots.txt 这个文件，如果 Spider 找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

1.4.2. robots.txt的语法格式
“robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以 CR，CR/NL, or
NL 作为结束符），每一条记录的格式如下所示：
“<field>:<optionalspace><value><optionalspace>”。
在该文件中可以使用#进行注解，具体使用方法和 UNIX 中的惯例一样。该文件中的记
录通常以一行或多行 User-agent 开始，后面加上若干 Disallow 行，详细情况如下：
User-agent:

Disallow:

Allow:

使用 * 匹配字符序列

使用 $ 匹配网址的结束字符

1.4.3. robots.txt使用技巧

1. 每当用户试图访问某个不存在的 URL 时，服务器都会在日志中记录 404 错误（无法找到文件）。

2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。

3. 如果你的网站是动态网页，并且你为这些动态网页创建了静态副本，以供搜索蜘蛛更容易抓取。

   4. robots.txt文件里还可以直接包括在 sitemap文件的链接。就像这样：

   5. 合理使用 robots.txt 文件还能避免访问时出错。

1.4.4. robots.txt用法举例：

A. 禁止所有搜索引擎访问网站的任何部分：

B. 允许所有的 robot 访问

C. 禁止所有搜索引擎访问网站的几个部分（下例中的 cgi-bin、tmp、private 目录）

D. 禁止某个搜索引擎的访问（下例中的 Baiduspider）

E. 只允许某个搜索引擎的访问（下例中的 Baiduspider）

F. 允许访问特定目录中的部分 url

G. 使用"*"限制访问 url

H. 使用"$"限制访问 url

I. 禁止访问网站中所有的动态页面

J. 禁止 Baiduspider 抓取网站上所有图片

K. 仅允许 Baiduspider 抓取网页和.gif格式图片

1.4.5.robots.txt举例

下面是一些著名站点的robots.txt：
http://www.cnn.com/robots.txt
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt

1.4.6.常见 robots.txt 错误
A. 颠倒了顺序

B. 把多个禁止命令放在一行中

C. 行前有大量空格

D. 404 重定向到另外一个页面

E. 采用大写。

F. 语法中只有 Disallow，没有 Allow

G. 忘记了斜杠/

第二章：主要搜索引擎介绍

第一节：Google

“Google”来源于“Googol” ，这是一个数学名词，表示一个 “1” 后面跟着 100 个“0”。这个词是由美国数学家 Edward Kasner 的外甥 Milton Sirotta 创造的，随后通过 Kasner和 James Newman 合著Mathematics and the Imagination”（《数学与想象力》）一书广为流传。Google使用这一术语体现了公司整合网上海量信息的远大目标。
    Google 的使命是整合全球信息，使人人皆可访问并从中受益。完成该使命的第一步始于 Google 创始人 Larry Page和 Sergey Brin，他们在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎，然后迅速传播给全球的信息搜索者。目前 Google 被公认为全球规模最大的搜索引擎，它提供了简单易用的免费服务，用户可以在瞬间得到相关的搜索结果。

    访问 www.google.com 或众多 Google 域之一时，用户可以使用多种语言查找信息，查看股价、地图和要闻，查找美国境内所有城市的电话簿名单，搜索数十亿计的图片并详读全球最大的 Usenet 信息存档——超过十亿条帖子，发布日期可以追溯到 1981 年。用户甚至不必特意访问 Google 主页，也可以访问所有这些信息。使用 Google 工具栏，用户可以从网上的任何位置执行 Google 搜索，而 Google 桌面栏（测试版）将 Google 搜索框放在 Windows 任务栏中，这样用户可以从任何正在使用的应用程序中执行搜索，而不必打开浏览器。即使身边没有 PC 机时，用户也可以通过 WAP 和 i-mode 手机等无线平台使用Google。Google 的实用性及便利性赢得了众多用户的青睐，它几乎完全是在用户的交口称颂下成为全球最知名的品牌之一的。

    Google是全球最大的搜索引擎，借助和America Online、Netscape及其他公司的合作伙伴关系，它所回应的查询远远多于其他在线服务商。Google.com是互联网上5大最受欢迎的网站之一，在全球范围内拥有无数的用户，全球受众：超过百分之五十的点击量来自美国境外。

2.1.2．Google 的 P ageRank 技术

    P ageRank(佩奇等级)是Google能够超越其它搜索引擎的一个法宝。“佩奇等级”是Googl算法的重要内容，2001年 9 月 Google 被授予美国专利，专利人就是 Googl 的创始人之一拉里.佩奇，因此，PageRank 里面的 Pages 不是网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

    “佩奇等级”是着重考察网站的权威性，即越有权威的网站越容易被其它网站主动链接，
被链接的越多，就意味着其它网站投票越多，这个就是所谓的“链接流行度”-----衡量多少
人愿意将他们的网站和你的网站挂钩。
    “佩奇等级”的初衷是非常理想化的，他认为，一个网站的好坏不是有网站自己吹出来
的，也不是网站自己作假做出来的，而是大家评选出来的，你链接一个网站，那个网站就获
得了一个投票。这样的评比结果很难被操纵，网站的排名也就很难有作弊获得。
但是，这个逻辑现在面临着一个挑战，搜索引擎优化者为了提升一个网站的“佩奇等级”
价值，总是在试图获取最多的导入链接，因为，一个导入链接就相当于一份投票，更多的网
站主靠虚拟的链接来积累这个“投票”的作弊，因此，Google 现在对于搜索引擎的排名并
不像以前那样重视“佩奇等级”。
    PageRank 有一个比较复杂的计算公式，这里我就部列出来了，这个公式对于我们来说，
一般情况下是用不到的，只要我们了解这个概念就 OK 了。我们不鼓励大家刻意的去追求
PR，因为决定排名的因素刻意有上百种，但是，我们建议网站设计者要充分认识佩奇等级
在 Google 判断网站质量中的重要作用，从设计前的考虑到这些方面，如果在设计中考虑这
些问题，我们将在后面的章节中讲述。

2.1.3.1Google 的 SiteMap技术是什么？

Google Sitemap 可以让网站建设者通过使用特定格式的 sitemap 文件，通知 Google 并指引 Google spider收录相应网页。正确地使用 Google Sitemap，可以确保让 Google spider不遗漏网站内的任何页面，及时地、连续地收录进 Google 的索引数据库。无论从哪个角度，网页被收录进索引数据库是网页出现在 SERP的最基本条件，而 Google Sitemap 则提供了网页收录的捷径，这在某种意义上可以视之为 Google 的后门。既然说是 Google 某种意义上的后门，那么，Google 一定会抓取 Sitemap 中的所有网址并为其编制索引吗？这个问题 Google 的官方也做出了相关的回答，内容如下：我们不保证一定会抓取所有网址并为其编制索引。例如，我们不会抓取您的 Sitemap 中所含的图片网址或为其编制索引。但是，我们会使用 Sitemap 中的数据了解网站的结构，这样可以让我们改进抓取工具的日程，并在日后能更好地对网站进行抓取。大多数情况下，网站管理员会从 Sitemap 提交中受益，您决不会因此而受到处罚。
从Google的官方回答来看， Google一定会抓取 Sitemap 中的所有网址并为其编制索引，而只是有利于其进行抓取，某种意义上来说，Google 的 SiteMap 对于提供网站搜索的位置有很大的帮助，这个帮助基本上有两个用途：
A：Google站点地图给你提供了一个途径来告诉 Google 你的网站有价值的信息。
B：你可以通过 Google 站点地图来了解 Google 是怎么看待你的网站的。

2.1.3.2 怎样设立 Google 站点地图

设立 Google的站点地图，第一件事情就是要创建一个 Google账户，这个账户可以是你的 Gmail 信箱的账户，或者是 Adwords,Adesnse 的账户就可以了。
    一般来说，有两种类型的 sitemap。第一种类型的 sitemap 是通常按部分列出您网站网页的 HTML 网页，用于帮助用户查找所需的信息。虽然此类 sitemap 能够帮助访问者和搜索引擎浏览网站，但是它不同于 XML Sitemap，XML Sitemap 可通过网站管理员工具提交给 Google。
A:使用 RSS / Atom 供稿作为 Sitemap Google 接受 RSS（真正简单的联合供稿）2.0 供稿和 Atom 1.0 供稿。如果您的博客有 RSS 或 Atom 供稿，您可以将该供稿的网址作为 Sitemap 提交。大多数博客软件会为您创建供稿。如果您的网站没有供稿，您可以使用 Feedburner 创建并发布供稿。
B:创建基于文本文件的 Sitemap
一个 Sitemap 应包含一个您网站的网址（最多 50,000 个）列表。如果您的网站很大，包含的网址超过50,000 个，则应创建多个 Sitemap，并为它们提交一个 Sitemap 索引文件 <>。
您可以向 Google 提供纯文本文件，其中每行包含一个网址。例如：
http://www.example.com/file1.html
http://www.example.com/file2.html
要获得最佳效果，请按照下列指南操作：
   1. 由于 Google 完全按照所提供的网址进行抓取，您需要完整指定网址。
   2. 每个文本文件最多可以包含 50,000 个网址。如果网站所包含的网址超过 50,000个，则可以将列表分割成多个文本文件，然后分别添加每个文件。
   3. 文本文件需使用 UTF-8 编码。在保存文件时您可指明此项（例如，在记事本中，此项会在"另存为"对话框中的"编码"菜单中列出）。
   4. 文本文件不应包含网址列表以外的任何信息。
   5. 文本文件不应包含任何页眉或页脚信息。
   6. 您可以对文本文件进行任意命名。 Google 建议将文件的扩展名定为 .txt，以表明其为文本文件（例如 sitemap.txt）。
   您应将文本文件上传到服务器，通常传至希望搜索引擎抓取的最高级目录。
   创建此文件后，您即可将其作为 Sitemap 提交。如果您对编制网络服务器的脚本或管理网络服务器不熟悉，手动进行此过程是最简单的方法，也不失为一种最好的方法。如果您有多个网站，可以创建一个或多个 Sitemap 将所有经过验证网站的网址包含在其中，然后将这些 Sitemap 保存在一个位置，以此来简化 Sitemap 的创建和提交过程。所有网站都必须使用网站管理员工具进行验证。

C:根据 Sitemap 协议创建 Sitemap
Google 可以接受多种格式的 Sitemap，但是我们建议您根据 Sitemap 协议创建 Sitemap，
因为这种格式的文件也可以提交至作为 sitemaps.org 成员的其他搜索引擎，如 MSN 和
Yahoo!。
您可以通过以下多种方式创建 Sitemap：
   1. 根据 Sitemap 协议手动创建 Sitemap
   2. 使用 Sitemap 生成器。如果您可以访问网络服务器并且服务器装有 Python，则可
以利用我们的脚本来创建采用 Sitemap 协议的 Sitemap。 Google Sitemap 生成器是一个
Python 脚本，可以利用 Sitemap 协议为您的网站创建 Sitemap。   此脚本可以通过网址列表、
网络服务器目录或通过访问日志创建 Sitemap。
   3. 使用第三方工具。很多第三方提供了可用于创建有效的 Sitemap 的工具。

2.1.3.3. 向 Google 添加网站
    加入 Google 搜索结果是不需要付费的，并且非常容易执行；您甚至不需要将网站提交给Google。 Google 是一个完全自动化的搜索引擎，它使用称为"信息采集软件"的软件定期抓取网络并找到可添加到 Google 索引的网站。事实上，列入搜索结果中的绝大多数网站都不是人工提交的，而是信息采集软件抓取网络时找到并自动添加的。
但是，如果您的网站提供专门的产品、内容或服务，则您可以把它们投放在 Google 网络搜索和其他 Google 服务上，以便在全世界范围内进行传播。   有关更多信息，请访问 Google内容中心。
要判断您的网站当前是否包含在 Google 索引中，请对您的网址执行"site:"搜索。例如，索[site:google.com] 会返回以下结果：http://www.google.com/search?q=site%3Agoogle.com。
虽然 Google 可抓取超过数十亿个网页，但遗漏少数网站也在所难免。造成 Spider 遗漏网站的常见原因如下：
    * 网站未通过多个链接牢靠地连接到网络上的其他网站。
    * 网站在 Google 最近一次抓取后才启动。
    * 网站的设计让 Google 很难有效抓取其中的内容。
    * 网站在我们抓取时暂时不可用，或我们在抓取时收到错误消息。
    您可以使用Google 网站管理员工具来查看当我们试图抓取您的网站时是否收到了错误。公平准确地展示互联网内容是我们的宗旨。为实现此目标，我们提供了有关构建便于抓取的网站的指南和提示。虽然我们无法保证信息采集软件能找到某个特定网站，但遵循以下指南应该可以增加网站在我们的搜索结果中显示的机会。
考虑创建并提交关于您的网页的详细 Sitemap。   Sitemap 是您向 Google 索引提交所有网
址并详细了解您的网页在 Google 显示情况的一条捷径。通过 Sitemap，我们可以随时自动获得有关您当前网页及其更新的所有信息。请注意，提交 Sitemap 并不能保证您网站上的所有网页都会被抓取或包含在我们的搜索结果中。

2.1.4. 网站管理员工具

2.1.4.1.网站管理员工具介绍
Google 网站管理员工具提供免费的简易方法，让您的网站更容易被 Google 抓取。该工具可显示 Google 对您网站的意见，帮助您诊断问题并让您与我们共享信息来提高您网站的展示率。

使用 Google网站管理员工具，具有以下优点：
I. 获取 Google 对您网站的意见，并诊断出可能的问题
提高您网站在 Google 上展示率的第一步，就是先了解我们的漫游器如何抓取您的网站并编
制索引。
1. 抓取信息：您可以确定我们是否已经访问过您的网站，并查看 Googlebot 上
次访问的时间。您还可以查看我们在抓取时遇到问题的网址，并了解无法抓
取的原因。这样您便可以修正所有问题，让我们能够为您的所有网页编制索
引。
2. Robots.txt 文件验证：查看我们在处理您的文件时是否遇到问题，并先对文件
的修改进行测试，然后在服务器上修改该文件。
3. 网站内容：查看您网站的热门内容以及其他网站用来链接到您网站的字词。
II. 查看您网站的运作效果
第二步是了解如何提高网站点击量。
1. 热门查询：查找可提高您网站点击量的热门查询，以及您的网站可出现在热
门搜索结果中的哪个部分。这可让您了解用户如何找到您的网站。
2. 索引信息：了解编制网站索引的方式以及您的哪些网页已编制到索引中。如
果我们发现您的网站上有违规行为，会给您机会修正问题，并要求您的网站
重新加入。
III. 与 Google 共享关于您网站的信息
因为没人比您更了解您的网站，因此您也可以与 Google 共享此信息并提高您网站的易抓取
程度。
1. 提交 sitemap 文件：提交 Sitemap 文件来告诉我们关于您网页的一切信息，
帮助我们了解哪些网页对您最重要，以及那些网页更改的频率。
2. 指定首选域：请告诉我们编制您网站索引时要使用的网址，我们会尽量为您
首选的网址编制索引。

posted @ 2012-05-15 16:23 珍爱贝贝1314 阅读(390) 评论(1) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

珍爱贝贝1314

搜索引擎

公告