摘要: 互联网可以看成一个超级大的“图”,而每个页面可以看作是一个“节点”,页面中的链接可以看成是图的“有向边”。因此,能够通过国的遍历的方式对互联网这个超级大“图”进行访问。图的遍历通常可分为宽度优先遍历和深度优先遍历。 指定的网址可以作为种子链接。下面来确定链接的子节点: 每个链接对应一个HTML页面或者其他文件(word、execl、pdf、jpg等) 只有HTML页面有相应的“子节点”,这些“子节点”就是HTML页面上对应的超链接。这些子节点本身又是一个链接。 对于非HTML文档,比如Eecel文件等,不能从中提取超链接。因此,可以看作是图的“终端”节点。 阅读全文
posted @ 2011-02-16 19:50 成长的企鹅 阅读(113) 评论(0) 推荐(0) 编辑