硬件报价采集模块的构思与实现
2009-08-18 06:51 飞逝心情 阅读(209) 评论(0) 编辑 收藏 举报硬件报价作为网维之家的信息的一部分,起着实时硬件报价的作用,不过报价的价格来源却比较棘手,因为我们不可能去获得第一手的资料,只能去网上实时查找其它各大网站的报价。这样,也就是一个数据采集器了。
数据采集在asp.net中异常简单,只要你知道网址,asp.net本身提供了很多与数据采集相关的类,这些都可以通过msdn 查到,下面说下数据采集的思想。
首先去网上查找网页,并把网页的源代码保存在一个字符串中。
接下来,把字符串中的其它的字符串给过滤掉,这一部分主要使用的是正则表达式的查找替换功能。这一部分比较耗费时间,不过如果对正则表过式有很深了解的话,应该不是什么问题,基本上把变量部分还原出来就OK了。
第三步,将过滤后的字符串保存在一些特定的变量中,然后,这些变量就可以使用了。
第四步,将保存好的变量保存到一个静态文本文件中,因为这些将来是不会改变的,不过要记得,保存的名字要以日期命名,这样,方便以后的查询。
第五步,将保存好的文件读入到.net 页面中,为了节省资源,我们采用了页面输出缓存的策略,这个原因是显页易见的。因为一天内不可能变动的。
经过这些步骤,基本上就完成数据的采集功能了。
接下来还要实现新闻采集器和电脑知识采集器,这些的原理就大同小异了。