Python 爬虫实例（15）爬取百度百聘（微信公众号）

今天闲的无聊，爬取了一个网站，百度百聘，仅供学习参考

直接上代码：

#-*-coding:utf-8-*-
from common.contest import *

def spider():

    headers = {

        "Host":"zhaopin.baidu.com",
        "Connection":"keep-alive",
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36",
        "Accept":"*/*",
        "Referer":"http://zhaopin.baidu.com/qz?query=%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88",
        "Accept-Encoding":"gzip, deflate",
        "Accept-Language":"zh-CN,zh;q=0.8",
        "Cookie":"BAIDUID=F9ED0B117C16BC97A29D64DD28F4CBB9:FG=1; BIDUPSID=F9ED0B117C16BC97A29D64DD28F4CBB9; PSTM=1532340289; locale=zh;
 　　　　　　Hm_lvt_c676f95eebbd4fa8a59418f48090ac4d=1532922582; URLTITLESALARY=%20; Hm_lvt_80a630f2b5c230ad2a5d3f1356e18706=1532938867; 
　　　　　　　　Hm_lpvt_80a630f2b5c230ad2a5d3f1356e18706=1532941545; td_cookie=966486977",

    }

    url = 'http://zhaopin.baidu.com/api/qzasync'
    for page in range(0,11):
        print "正在爬取的页数是:",str(page)
        data = {

            "query":"爬虫工程师",
            "city":"%E5%8C%97%E4%BA%AC",
            "pcmod":"1",
            "pn":str(page),
            "rn":"10",
        }

        result = session.get(url=url,params=data,headers=headers).json()
        result = result['data']['disp_data']
        for ii in result:

            try:
                ori_size = ii['ori_size']
            except:
                ori_size = ""

            ori_city = ii['ori_city']
            ori_type = ii['ori_type']
            StdStl = ii['StdStl']
            sourcelink = ii['sourcelink']
            _version = ii['_version']
            haswapurl = ii['haswapurl']
            education = ii['education']

            try:
                size = ii['size']
            except:
                size = ""

            format_date = ii['format_date']
            detailidx = ii['detailidx']
            title = ii['title']
            ori_employertype = ii['ori_employertype']
            requirements = ii['requirements']
            company_id = ii['company_id']
            ori_salary = ii['ori_salary']
            source = ii['source']
            location = ii['location']
            provider = ii['provider']
            employertype = ii['employertype']
            lastmod = ii['lastmod']
            _update_time = ii['_update_time']
            ori_education = ii['ori_education']

            try:
                companyaddress = ii['companyaddress']
            except:
                companyaddress = ""

            company = ii['company']
            try:
                commonname = ii['commonname']
            except:
                commonname = ""

            ori_welfare = ii['ori_welfare']
            ori_experience = ii['ori_experience']

            ori_welfare = str(ori_welfare).decode('unicode_escape')

            print "ori_salary",ori_salary
            print "ori_size",ori_size
            print "ori_city",ori_city
            print "ori_type",ori_type
            print "StdStl",StdStl
            print "sourcelink",sourcelink
            print "_version",_version
            print "haswapurl",haswapurl
            print "education",education
            print "id",id
            print "size",size
            print "format_date",format_date
            print "detailidx",detailidx
            print "title",title
            print "ori_employertype",ori_employertype
            print "requirements",requirements
            print "company_id",company_id
            print "ori_salary",ori_salary
            print "ori_salary",ori_salary
            print "source",source
            print "employertype",employertype
            print "location",location
            print "provider",provider
            print "employertype",employertype
            print "lastmod",lastmod
            print "_update_time",_update_time
            print "ori_education",ori_education
            print "companyaddress",companyaddress
            print "company",company
            print "commonname",commonname
            print "ori_welfare",ori_welfare
            print "ori_experience",ori_experience


        time.sleep(5)


spider()

这个网址没有什么难度，只需要简单的请求一下请求接口就能得到数据，注意请求参数 city 需要 URL编码一下就可以，不会的同学请自行百度 URL编码就可以了

posted @ 2018-07-30 17:56 淋哥阅读(1797) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术

历史上的今天：
2016-07-30 如何修改linux时间？校正linux系统的时间
2016-07-30 python 内建函数 type() 和 isinstance() 介绍
2016-07-30 标准类型内建函数 str()和 repr() (及 `` 运算符) 简单介绍
2016-07-30 标准类型内建函数 cmp()介绍
2016-07-30 标准类型内建函数 type（）介绍

公告

昵称：淋哥
园龄： 8年10个月
粉丝： 229
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

英雄莫问出处,富贵当思缘由

Python 爬虫实例（15）爬取百度百聘（微信公众号）

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (338)

随笔档案 (452)

文章分类 (6)

文章档案 (19)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

英雄莫问出处,富贵当思缘由

Python 爬虫实例（15） 爬取 百度百聘（微信公众号）

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (338)

随笔档案 (452)

文章分类 (6)

文章档案 (19)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

Python 爬虫实例（15）爬取百度百聘（微信公众号）