python网络爬虫新浪博客篇

上次写了一个爬世纪佳缘的爬虫之后，今天再接再厉又写了一个新浪博客的爬虫。写完之后，我想了一会儿，要不要在博客园里面写个帖子记录一下，因为我觉得这份代码的含金量确实太低，有点炒冷饭的嫌疑，就是把上次的代码精简了一下，用在另外一个网站而已，而且爬别人的博客总有一种做贼心虚的感觉，怕被各位园友认为是偷窥狂魔。但是这份代码总归是我花了精力去写的，我也不想就此让它深藏在硬盘之中（电脑实在太老了，可能过两年硬盘坏了，这份代码就消失了），还是贴出来权当作抛砖引玉。

说起要爬新浪博客，总归是有一个原因吧。我的原因呢也是什么的简单，就是这两天在网上下载了一本python自然语言处理的一本书，就像尝试着应用一下里面的理论（其实我都还没看呢哈哈），当然照着书里面的例子玩总归是没什么成就感的，所以就想自己找点东西实验一下。可能你觉得这个原因和爬新浪博客没什么必然联系啊，确实如此，前面扯的东西太虚了，我写这个东西就是为了满足一下自己的偷窥欲望，把曾经女神的博客都下载下来（大家不要喷。。），顺便在用前面讲的高大上的自然语言理论处理一下（估计很难，八成做不下去）。

讲了这么多废话了，现在开始说一说爬虫的工作原理。先原谅我粗糙的涂抹技术，因为实在不想把再出现上次帖子中的情况，大家纷纷在评论中讨论我在知乎看什么。首先在新浪播客找到你要下载用户的主页，在地址栏中最后一般有一个数字对应于用户的id，因为每页放的文章有限，新浪博客采用了分页，对应于url里面的page=2,就是第二页的意思。在当前的页面我们可以用正则表达式解析出文章的发表时间，“查看原文”的链接中找到文章的链接。

因为新浪博客比较开放的原因，不登陆也能查看文章那个的内容，所以就直接用python里的urllib2，也不需要设置cookies，省去了很多麻烦。唯一比较麻烦的是如果文章里面有图片是多媒体的链接，提取里面的文字比较麻烦和繁琐，因为这个界面比较简单，当然也可以直接解析html，不过我已经习惯了正则表达式，虽然很麻烦，但还是硬着头皮写完了。其中正则表达式的替换字符串的功能非常的好用，就重点讲一讲这个吧！

在遇到复杂的字符串替换的时候，正则表达式的sub函数用起来非常的easy。贴一段简单的代码：

#-*- encoding:UTF-8 -*-
import re

s = u'''<div class="class1">this is string1</div>
<div class="class2">这是字符串二</DIV>'''

def div_func(m):
    if m is None:
        return ''
    return m.group(1)

if __name__ == '__main__':
    pattern = re.compile(u'<div[\S ]*?>(.*?)</div>', re.U | re.S | re.I)
    print s
    sss = pattern.sub(div_func, s)
    print
    print sss

在网页中，会碰到很多不同的格式，如代码里面的字符串s，如果想把里面的文字提取出来，对于比较复杂的替换要求，我们可以定义一个函数作为参数传给sub进行处理，运行的结果如下图所示，是不是非常的方便？

再讲讲python的中文编码问题吧，最简单的处理就是尽可能少的用str，尽可能多的用unicode。对于来自文件的输入数据，最好先解码为unicode再做处理，这样可以减少90%的乱码问题。哦，对了，今天还发现了一个非常好用的一个函数，可以用来下载文件

import urllib
urllib.urlretrieve(url, path)

此函数可以将url中的文件下载到本地路径path中，是不是非常的简单。最后展示一下。当然数据不多啦，女神也就一百多篇的文章，用数据库有点杀鸡用牛刀的感觉，直接输出到一个文本文件里面也是挺方便的哈！

最后的最后，还是把源代码贴出来以供大家参考哈！（由于本人实在不擅长描述细节，所以写的很粗，望大家多多见谅啊！）

链接：https://files.cnblogs.com/files/lrysjtu/xlblog.rar

posted @ 2015-05-10 19:50 腩啵兔子阅读(2907) 评论(0) 收藏举报

刷新页面返回顶部

腩啵兔子

python网络爬虫 新浪博客篇

公告

python网络爬虫新浪博客篇