2018 年 6月 9 日随笔档案 - Eunuch_Li

2018年6月9日

摘要： # 爬虫网络请求方式：urllib(模块), requests(库), scrapy, pyspider(框架)# 爬虫数据提取方式：正则表达式, bs4, lxml, xpath, css哪种方法都可以用,可以根据实际情况选用方式爬取静态页面比较好爬取,一般的措施是cookie中登录信息,或者c 阅读全文

posted @ 2018-06-09 11:17 Eunuch_Li 阅读(124) 评论(0) 推荐(0) 编辑

爬虫 urllib.request 模块

摘要：爬虫网络请求方式的一种爬虫数据提取方式我们用的是正则表达式我们用到的： re模块在我的随笔中有这个 Request 用来创建请求对象 urlopen 发送请求导入： res中的数据可能含有一些我们不需要的字符串注:因为我们用的正则匹配的对象是字符串,所以匹配出来的可能含一些杂乱的字符串所阅读全文

posted @ 2018-06-09 11:12 Eunuch_Li 阅读(185) 评论(0) 推荐(0) 编辑

Eunuch_Li

公告