【原】获取网页所有链接——简易搜索引擎雏形（C#,已测试通过,有CODE）

最近一直在看搜索引擎方面的资料，在Google上找了很多，可是没有找到一个下载下来可以直接使用的！

没有办法只能看别人的代码，然后一点一点的调试！功夫不负有心人，终于算是修得正果！贴代码：

Code

这个代码只是实现了部分功能，即单页面抓取不重复链接，看来还有部分工作要做，就是页面内部循环，利用正则抓取页单一站点的整体链接，目的是为了收集自己最感兴趣的内容。

为了使读者有信心，继续贴一些重量级别的代码过来，这段代码是统计一个URL内关键字出现的次数，测试通过！见代码：

Search.aspx 页面代码如下：

Code

Search.aspx.cs 后台代码如下：

Code

再推荐两篇文章：

http://www.codeproject.com/KB/IP/Searcharoo_4.aspx （C# search engine: refactored to search Word, PDF and more）

测试通过，不过有点小麻烦，得学会序列化和反序列化（这里采用二进制）。解决问题方法是：

1. 随便找4个文件，分别命名为：plaintext.txt，Kilimanjaro.pdf，Decorator.ppt，Marathoning.doc 放在目录 content 中；

2. 根据错误提示(e文，注意e文提示上面的链接，那个链接告诉你如何序列化和反序列化二进制文件以及XML文件)，创建二进制文件 z_searcharoo.dat 放在特定的目录下，然后RUN！

posted @ 2009-01-30 01:01 海洋——海纳百川,有容乃大. 阅读(1398) 评论(1) 编辑收藏举报

刷新页面返回顶部

宇宙教父