2019 年 5月 19 日随笔档案 - 逆欢

2019年5月19日

摘要：什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparse robots.txt解析模块阅读全文

posted @ 2019-05-19 23:03 逆欢阅读(88) 评论(0) 推荐(0) 编辑

爬虫的基本理念

摘要：什么是爬虫？请求网站并提取数据的自动化程序爬虫基本流程 1.发起请求，通过HTTP库向目标站点发起请求，即发送一个Request，请求包含额外的headers信息 2.获取响应内容，如果服务器正常相应，得到一个Response 3.解析内容，得到的内容可能是HTML，JSON，二进制数，可以保存阅读全文

posted @ 2019-05-19 22:48 逆欢阅读(180) 评论(0) 推荐(0) 编辑

逆欢

公告