2011 年 6月 9 日随笔档案 - 刺猬的温驯

2011年6月9日 #

摘要：摘要：本文讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序，可以通过一个入口网址(如 http://www.comprg.com.cn)来扫描整个互联网的网址，并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析工具对这些网络资源做进一步地分析，如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现象Google一样的搜索引擎。关键词：C#2.0，Html，网络蜘蛛, 键树，正则表达式一、引言在最近几年，以Google为首的搜索引擎越来越引起人们的关注。由于在Google出现之前，很多提供搜索服务的公司都是使用人工从网络上搜集信息，并将这些信息阅读全文

posted @ 2011-06-09 04:39 刺猬的温驯阅读(874) 评论(1) 推荐(0) 编辑

C#构造蜘蛛爬虫程序【转】

摘要：是Internet上一种很有用的程序，搜索引擎利用蜘蛛程序将Web页面收集到数据库，企业利用蜘蛛程序监视竞争对手的网站并跟踪变动，个人用户用蜘蛛程序下载Web页面以便脱机使用，开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户，蜘蛛程序有不同的用途。那么，蜘蛛程序到底是怎样工作的呢？蜘蛛是一种半自动的程序，就象现实当中的蜘蛛在它的Web（蜘蛛网）上旅行一样，蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。蜘蛛程序之所以是半自动的，是因为它总是需要一个初始链接（出发点），但此后的运行情况就要由它自己决定了，蜘蛛程序会扫描起始页面包含的链接，然后访问这些链接指向的页面阅读全文

posted @ 2011-06-09 04:03 刺猬的温驯阅读(859) 评论(1) 推荐(1) 编辑

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣