摘要: 上次已经可以得到页面的HTML代码了,接下来需要对HTML代码分析,得到里面所有的链接和过滤掉没用的HTML代码,把文字内容保留下来。分析HTML代码,通过正规表达式将链接和链接的文字内容保存下来。 private void FindLink(string html) { ... 阅读全文
posted @ 2012-09-18 22:40 寂静之秋 阅读(4464) 评论(6) 推荐(0) 编辑
摘要: 开发爬虫程序首先要先得到Web页面的HTML代码,微软已经为我们提供了很方便的方法,我们可以用WebClient或WebRequest、HttpWebResponse来很容易的得到网站页面的HTML代码。最后已经提供源码下载。先举例用WebClient得到HTML代码的方法。 private ... 阅读全文
posted @ 2012-09-18 22:15 寂静之秋 阅读(7962) 评论(0) 推荐(0) 编辑
哈尔滨八零网