python爬虫-12-23

最近打算写一个爬虫，两个目的，学会python，写出知道创宇的题。

我下了一个python3.3。里面有一个编辑器IDLE。

首先，作为一个爬虫，他要具有爬取网页源码的功能。

python自带的urllib库中的request.py文件中有这个函数，URLOPEN(url)。(不同于以往的版本，urllib的库更加像一个。。网络client和server的函数库角色)

其次，为了爬取更多的网页源码，我需要得到更多的URL，所以我需要从跟网页的源码中获得，方法有两个，1.提取<a href value=后面的内容。2.利用正则匹配表达式，提取http://的信息

目前的进展时，我完成了这两步，只不过还存在一些问题，1.编码问题，这个困扰我很久，有的网页源码可以用utf-8来decode出来str的源码，但是大部分都不可以。我已经把这个问题发给了cos，不知道他会不会理我。。。2.正则匹配表达式：单纯使用第一种方法很难得到全部的url，又是甚至根本没有。

posted @ 2012-12-23 00:24 derekDoMo 阅读(439) 评论(0) 编辑收藏举报

刷新页面返回顶部