python爬虫-12-23

最近打算写一个爬虫,两个目的,学会python,写出知道创宇的题。

我下了一个python3.3。里面有一个编辑器IDLE。

首先,作为一个爬虫,他要具有爬取网页源码的功能。

python自带的urllib库中的request.py文件中有这个函数,URLOPEN(url)。(不同于以往的版本,urllib的库更加像一个。。网络client和server的函数库角色)

 

其次,为了爬取更多的网页源码,我需要得到更多的URL,所以我需要从跟网页的源码中获得,方法有两个,1.提取<a href value=后面的内容。2.利用正则匹配表达式,提取http://的信息

目前的进展时,我完成了这两步,只不过还存在一些问题,1.编码问题,这个困扰我很久,有的网页源码可以用utf-8来decode出来str的源码,但是大部分都不可以。我已经把这个问题发给了cos,不知道他会不会理我。。。2.正则匹配表达式:单纯使用第一种方法很难得到全部的url,又是甚至根本没有。

 

posted @ 2012-12-23 00:24  derekDoMo  阅读(439)  评论(0编辑  收藏  举报