摘要:
上次已经可以得到页面的HTML代码了,接下来需要对HTML代码分析,得到里面所有的链接和过滤掉没用的HTML代码,把文字内容保留下来。分析HTML代码,通过正规表达式将链接和链接的文字内容保存下来。 private void FindLink(string html) { ... 阅读全文
摘要:
开发爬虫程序首先要先得到Web页面的HTML代码,微软已经为我们提供了很方便的方法,我们可以用WebClient或WebRequest、HttpWebResponse来很容易的得到网站页面的HTML代码。最后已经提供源码下载。先举例用WebClient得到HTML代码的方法。 private ... 阅读全文