python爬取12306及各参数的使用。完整代码

import requests
from retrying import retry
reuquests和retrying的下载及安装可以通过命令行pip install 口令实现

# 调用重连装饰器固定格式，最大重试3次
@retry(stop_max_attempt_number=3)
def get12306():
    print("123")
    # 此时的123,代码报错打印3次，成功爬取只打印1次
    url = "https://www.12306.cn/mormhweb/"
    # 最多响应3秒,verify=false是ssl证书错误添加的参数
    response = requests.get(url,timeout=3)
    print(response.content.decode())
    # content为二进制字节类型，使用decode函数解码
if __name__ == '__main__':
    try:
        get12306()
    except:
        # 捕获异常，3次链接错误报1次此代码
        print("finish")

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是客户端(主要指浏览器)能做的事情，爬虫都能够做。爬虫的主要用途：网络信息的采集，12306抢票，网络上的投票，相较之前的人工采集数据节省了大量的人力与物力。

posted on 2018-12-23 16:22 小陆同学阅读(1285) 评论(0) 收藏举报

刷新页面返回顶部

小陆同学

导航

python爬取12306及各参数的使用。完整代码