摘要: 通过.Net 的WebClient类,可以轻松完成网站数据抓取的任务。比方说我们有一个需求,要提取某某网站的列表页和详情页的数据进行分析。这时需要模拟浏览器浏览网页,得到页面的数据后进行精确提取,最后把我们想要的数据以一定的格式录入数据库以便分析。 实现思路: 1、WebClient类下载网页源码。 2、得到源码后,过滤掉不必要的特殊字符。 3、从过滤后的源码中获取指定的内容。 4、用正则表达式精确提取内容。 5、特殊条件处理(文章里有例举) 6、写入数据库。 阅读全文
posted @ 2008-01-26 11:06 早班火车 阅读(6702) 评论(24) 推荐(1) 编辑