2012 年 9月 18 日随笔档案 - 寂静之秋

2012年9月18日

摘要：上次已经可以得到页面的HTML代码了，接下来需要对HTML代码分析，得到里面所有的链接和过滤掉没用的HTML代码，把文字内容保留下来。分析HTML代码，通过正规表达式将链接和链接的文字内容保存下来。 private void FindLink(string html) { ... 阅读全文

posted @ 2012-09-18 22:40 寂静之秋阅读(4464) 评论(6) 推荐(0) 编辑

用C#开发蜘蛛网络爬虫采集程序（附源码）（一）

摘要：开发爬虫程序首先要先得到Web页面的HTML代码，微软已经为我们提供了很方便的方法，我们可以用WebClient或WebRequest、HttpWebResponse来很容易的得到网站页面的HTML代码。最后已经提供源码下载。先举例用WebClient得到HTML代码的方法。 private ... 阅读全文

posted @ 2012-09-18 22:15 寂静之秋阅读(7962) 评论(0) 推荐(0) 编辑

寂静之秋

公告