摘要: 1、问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2、思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) __init__(self)初始化函数 · hearders用到了fake_useragent库,用 阅读全文
posted @ 2018-11-09 11:37 喜喜睡吧 阅读(1596) 评论(1) 推荐(0) 编辑
摘要: 爬虫中主要用来解决Javascript渲染问题 1.声明浏览器对象: 2.访问页面: browser.get(url) 3.查找元素: 4.元素交互操作 5.执行javascript:excute_script() 6.获取元素信息: 阅读全文
posted @ 2018-11-09 10:59 喜喜睡吧 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 1. 字符串初始化: 2. URL初始化: 3. 文件初始化: 4. CSS选择器(id前加 ,class前加.): 1.查找元素:find() 返回所有元素 2.遍历元素:items() 5. DOM操作: 1.addclass、removeclass 2.attr 增加name属性 3.css 阅读全文
posted @ 2018-11-09 10:04 喜喜睡吧 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 1.BeautifulSoup支持的解析器: python标准库:BeautifulSoup(markup, "html.parser") 执行速度适中,文档容错能力强 lxml HTML解析器:BeautifulSoup(markup, "lxml") 执行速度适快,文档容错能力强 lxml XM 阅读全文
posted @ 2018-11-09 09:52 喜喜睡吧 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 1、问题描述: 爬取链家深圳 全部 二手房的详细信息,并将爬取的数据存储到CSV文件中 2、思路分析: (1)目标网址:https://sz.lianjia.com/ershoufang/ (2)代码结构: (3) __init__(self)初始化函数 · hearders用到了fake_user 阅读全文
posted @ 2018-11-07 16:50 喜喜睡吧 阅读(5442) 评论(1) 推荐(0) 编辑
摘要: 1、问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2、思路分析: 发送请求 获取数据 解析数据 存储数据 1、目标网址:https://sz.lianjia.com/ershoufang/ 2、利用requests.get()方法向链家深圳二手房首页发送请求,获取首页的 阅读全文
posted @ 2018-11-06 20:37 喜喜睡吧 阅读(1478) 评论(0) 推荐(0) 编辑
摘要: 1、问题描述: 爬取豆瓣读书首页的图书的名称、链接、作者、出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中 2、思路分析: 发送请求 获取数据 解析数据 存储数据 1、目标网址:https://book.douban.com/ 2、利用requests.get()方法向豆瓣读 阅读全文
posted @ 2018-11-04 15:23 喜喜睡吧 阅读(1267) 评论(0) 推荐(0) 编辑
摘要: 1、re.match(pattern, str, flag) 从str的第一个字母开始匹配,若不是开头的,尽管属于str内,则无法匹配。 2、贪婪匹配与非贪婪匹配(?) 3、re.search() 扫描整个字符串并返回 第一个 成功的 4、re.sub() 替换字符串 5、re.compile()是 阅读全文
posted @ 2018-11-04 15:09 喜喜睡吧 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 1、get请求: get(url, params, headers) 2、json 解析 3、content 获取二进制内容 4、headers 添加 5、post请求:post(url,data,headers) 6、files 文件上传 7、cookie 获取 8、session 会话维持 模拟 阅读全文
posted @ 2018-11-04 14:38 喜喜睡吧 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 1、四个模块: request error parse robotparser 2、urlopen(url, data, timeout) 发送请求 get请求无data; post请求有data 3、read() 获取响应体的内容 4、Handler 代理IP 5、cookie 维持登录状态 6、 阅读全文
posted @ 2018-11-04 14:26 喜喜睡吧 阅读(693) 评论(0) 推荐(0) 编辑