从搜索的角度看互联网
互联网可以看成一个超级大的“图”,而每个页面可以看作是一个“节点”,页面中的链接可以看成是图的“有向边”。因此,能够通过国的遍历的方式对互联网这个超级大“图”进行访问。图的遍历通常可分为宽度优先遍历和深度优先遍历。
指定的网址可以作为种子链接。下面来确定链接的子节点:
每个链接对应一个HTML页面或者其他文件(word、execl、pdf、jpg等)
只有HTML页面有相应的“子节点”,这些“子节点”就是HTML页面上对应的超链接。这些子节点本身又是一个链接。
对于非HTML文档,比如Eecel文件等,不能从中提取超链接。因此,可以看作是图的“终端”节点。
----------------------更多博文请关注http://www.xinghaixu.com-----------------------