摘要: # 爬虫网络请求方式:urllib(模块), requests(库), scrapy, pyspider(框架)# 爬虫数据提取方式:正则表达式, bs4, lxml, xpath, css哪种方法都可以用,可以根据实际情况选用方式爬取静态页面 比较好爬取,一般的措施是cookie中登录信息,或者c 阅读全文
posted @ 2018-06-09 11:17 Eunuch_Li 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 爬虫网络请求方式的一种 爬虫数据提取方式我们用的是正则表达式 我们用到的: re模块 在我的随笔中有这个 Request 用来创建请求对象 urlopen 发送请求 导入: res中的数据可能含有一些我们不需要的字符串 注:因为我们用的正则匹配的对象是字符串,所以匹配出来的可能含一些杂乱的字符串 所 阅读全文
posted @ 2018-06-09 11:12 Eunuch_Li 阅读(184) 评论(0) 推荐(0) 编辑