不在爬虫中爆发,就在爬虫中灭亡
整了一天,查阅了N多资料,最后把自己脑子烧成一锅粥了。悲剧。
上午很悲剧的,IE不能访问网络。原因是昨天下午安装了个IE8,后来不好用就把它卸掉了。如此IE就不能连上网络。重装IE8依旧不能访问网络。装火狐也不行。RTX能用,foxmail也能用,oprea浏览器也能访问网络。悲剧。没办法,系统还原,从根本上解决问题,一个上午的时间就耗掉了一半。
OK,整爬虫蜘蛛。在winform程序中的一个文本框中输入要获取数据的URL地址,单击搜索按钮来获取网页的源码,然后对网页源码进行分析,找出其中的链接,继续深挖网页数据。最后还要对这些网页中的数据进行分享出来,按照各个可用的字段存入数据库中。基本过程就是这样的,不知道纯野有没有描述清楚。整了一天就获得一个网页的源代码,如何进行分解,如何进行存储,如何进行深挖,很多问题都没能解决。话说想到了用字符串操作来分解得到要用的数据,但字符串操作太慢。用正则表达式来做,这是最常见的方法,但无奈自身水平有限,对正则表达式不太了解,也不能一下子整出来。悲了个剧。
...Copyright © 2008
纯野原创博客(http://www.chunye39.com)——以纯野的眼光看世界,关注电子商务、关注网站建设,讲述代码人生!欢迎探讨交流!!!