摘要:
getHref方法的实现 // 从中获得Href private String getHref(string a) { try { string p = @"href\s*=\s*('[^']*'|""[^""]*""|\S+\s+)"; // 获得Href的正则表达式 MatchCollection matches = Regex.Matches(a, p, RegexOptions.Ignor... 阅读全文
摘要:
用C#2.0实现网络蜘蛛(WebSpider) 阅读全文
摘要:
今天在网上找开源程序作为自己程序的参考时,突然想到一个问题:编程这么久了,用了这么多开源程序,自己也贡献了一些开放源代码的程序,但是到现在要是问我什么是开源软件?什么是开源?那我可就钻地洞去了。 太惭愧了,想必很多人也和我一样。落后不要紧,赶紧补补才是真。于是我打开http://www.opensource.org/ 这个最出名的开源网站之一(人家域名就是叫开源啊,呵呵),如果这个... 阅读全文
摘要:
通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序。比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。 为了完成以上的需求,我们就需要模拟浏览器浏览网页,得到页面的数据在进行分析,最后把分析的结构,即整理好的数据写入数据库。那么我们的思路就是: 1、发送HttpRequest请求。 2、接收HttpResponse... 阅读全文
摘要:
由于自己的搜索引擎中做到了这一块内容,所以今天说说如何抓取网页数据、分析并且去除Html标签,给大家提供一个参考。我的平台是Visual Studio2005,C#。 —————————————————————割————————————————————————— 首先将网页内容整个抓取下来,这个我就不说了,不是本次话题的重点。假设抓取的数据放在RecvBuffe... 阅读全文