不在爬虫中爆发,就在爬虫中灭亡

 

整了一天,查阅了N多资料,最后把自己脑子烧成一锅粥了。悲剧。

上午很悲剧的,IE不能访问网络。原因是昨天下午安装了个IE8,后来不好用就把它卸掉了。如此IE就不能连上网络。重装IE8依旧不能访问网络。装火狐也不行。RTX能用,foxmail也能用,oprea浏览器也能访问网络。悲剧。没办法,系统还原,从根本上解决问题,一个上午的时间就耗掉了一半。

OK,整爬虫蜘蛛。在winform程序中的一个文本框中输入要获取数据的URL地址,单击搜索按钮来获取网页的源码,然后对网页源码进行分析,找出其中的链接,继续深挖网页数据。最后还要对这些网页中的数据进行分享出来,按照各个可用的字段存入数据库中。基本过程就是这样的,不知道纯野有没有描述清楚。整了一天就获得一个网页的源代码,如何进行分解,如何进行存储,如何进行深挖,很多问题都没能解决。话说想到了用字符串操作来分解得到要用的数据,但字符串操作太慢。用正则表达式来做,这是最常见的方法,但无奈自身水平有限,对正则表达式不太了解,也不能一下子整出来。悲了个剧。

...

Copyright © 2008

继续阅读《不在爬虫中爆发,就在爬虫中灭亡》的全文内容...

分类: 代码人生 | Tags: 蜘蛛爬虫  蜘蛛爬虫的实现思路   | 添加评论(3)

还没有相关文章,您来说两句?

posted on 2011-03-11 21:06  纯野  阅读(341)  评论(2编辑  收藏  举报

导航