摘要:
通过.Net 的WebClient类,可以轻松完成网站数据抓取的任务。比方说我们有一个需求,要提取某某网站的列表页和详情页的数据进行分析。这时需要模拟浏览器浏览网页,得到页面的数据后进行精确提取,最后把我们想要的数据以一定的格式录入数据库以便分析。
实现思路:
1、WebClient类下载网页源码。
2、得到源码后,过滤掉不必要的特殊字符。
3、从过滤后的源码中获取指定的内容。
4、用正则表达式精确提取内容。
5、特殊条件处理(文章里有例举)
6、写入数据库。 阅读全文