【原】获取网页所有链接——简易搜索引擎雏形(C#,已测试通过,有CODE)

最近一直在看搜索引擎方面的资料,在Google上找了很多,可是没有找到一个下载下来可以直接使用的!

没有办法只能看别人的代码,然后一点一点的调试!功夫不负有心人,终于算是修得正果!贴代码:

Code

 

这个代码只是实现了部分功能,即单页面抓取不重复链接,看来还有部分工作要做,就是页面内部循环,利用正则抓取页单一站点的整体链接,目的是为了收集自己最感兴趣的内容。

为了使读者有信心,继续贴一些重量级别的代码过来,这段代码是统计一个URL内关键字出现的次数,测试通过!见代码:

Search.aspx 页面代码如下:

Code

 

Search.aspx.cs 后台代码如下:

 

Code

 

再推荐两篇文章:

http://www.codeproject.com/KB/applications/SearchDotnet.aspx (Internal Site Search Engine 测试通过)

http://www.codeproject.com/KB/IP/Searcharoo_4.aspx (C# search engine: refactored to search Word, PDF and more)

测试通过,不过有点小麻烦,得学会序列化和反序列化(这里采用二进制)。 解决问题方法是:

1.  随便找4个文件,分别命名为:plaintext.txt,Kilimanjaro.pdf,Decorator.ppt,Marathoning.doc 放在目录 content 中;

2.  根据错误提示(e文,注意e文提示上面的链接,那个链接告诉你如何序列化和反序列化二进制文件以及XML文件),创建二进制文件 z_searcharoo.dat 放在特定的目录下,然后RUN!

posted @ 2009-01-30 01:01  海洋——海纳百川,有容乃大.  阅读(1398)  评论(1编辑  收藏  举报