爬虫抓取百度贴吧帖子内容

上篇文章已经介绍了抓取糗事百科的段子,这篇文章来抓取百度贴吧帖子内容,涉及到urllib,urllib2,re等模块。

代码实现功能:

  1.获取某一个帖子的标题

  2.获取帖子回复的所有页数,以及每一页的内容

  3.可以只获取楼主的回复(使用数字1声明),或者所有回复(使用数字0声明)

直接使用oop编程的方式编写代码:

代码如下:

#!/usr/bin/env python
#coding:utf8

import urllib
import urllib2
import re

#处理页面标签类
class Tool:
    #去除img标签,7位长空格
    removeImg = re.compile('<img.*?>| {7}|')
    #删除超链接标签
    removeAddr = re.compile('<a.*?>|</a>')
    #把换行的标签换为\n
    replaceLine = re.compile('<tr>|<div>|</div>|</p>')
    #将表格制表<td>替换为\t
    replaceTD= re.compile('<td>')
    #把段落开头换为\n加空两格
    replacePara = re.compile('<p.*?>')
    #将换行符或双换行符替换为\n
    replaceBR = re.compile('<br><br>|<br>')
    #将其余标签剔除
    removeExtraTag = re.compile('<.*?>')
    def replace(self,x):
        x = re.sub(self.removeImg,"",x)
        x = re.sub(self.removeAddr,"",x)
        x = re.sub(self.replaceLine,"\n",x)
        x = re.sub(self.replaceTD,"\t",x)
        x = re.sub(self.replacePara,"\n  ",x)
        x = re.sub(self.replaceBR,"\n",x)
        x = re.sub(self.removeExtraTag,"",x)
        #strip()将前后多余内容删除
        return x.strip()

class BDTB(object):
    #seeLZ: 0:查看所有回复 1:只看楼主回复
    def __init__(self, baseUrl, seeLZ):
        self.baseURL = baseUrl
        self.seeLZ = '?see_lz=' + str(seeLZ)
        self.tool = Tool()

    #获取帖子页面数内容  
    def getPage(self, pageNum):
        try:
            url = self.baseURL + self.seeLZ + '&pn=' + str(pageNum)
            req = urllib2.Request(url)
            response = urllib2.urlopen(req)
            #print response.read()
            html = response.read().decode('utf-8')
            return html

        except urllib2.URLError,e:
            if hasattr(e, 'reason'):
                print u'连接百度贴吧失效,错误原因:', e.reason
                return None
    #获取帖子标题
    def getTitle(self, pageNum):
        page = self.getPage(pageNum)
        pat1 = re.compile(r'<h3 class="core_title_txt.*?>(.*?)</h3>', re.S)
        result = re.search(pat1, page)
        if result:
            print result.group(1)
        else:
            return None
    #获取帖子回复页数
    def getPageNum(self, pageNum):
        page = self.getPage(pageNum)
        pat1 = re.compile(r'<li class="l_reply_num".*?</span>.*?<span.*?>(.*?)</span>', re.S)
        result = re.search(pat1, page)
        if result:
            print result.group(1)
            return int(result.group(1))
        else:
            return None
    #获取帖子回复内容
    def getContent(self, pageNum):
        page = self.getPage(pageNum)
        pat1 = re.compile(r'<div id="post_content.*?>(.*?)</div>', re.S)
        items = re.findall(pat1, page)
        # for item in items:
        #     print item
        floor = 1
        for item in items:
            print ''
            print '第%s页的帖子内容:' %pageNum
            print floor,u'楼-----------------------'
            print self.tool.replace(item)
            floor += 1


#调用执行主函数
if __name__ == '__main__':
    baseURL = 'http://tieba.baidu.com/p/3138733512'
    bdtb = BDTB(baseURL,0)
    bdtb.getTitle(1)
    page_num = bdtb.getPageNum(1)
    for i in xrange(page_num):
        bdtb.getContent(i+1)

 

posted @ 2016-09-13 19:16  xkops  阅读(1159)  评论(0编辑  收藏  举报