摘要: 1、问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2、思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) __init__(self)初始化函数 · hearders用到了fake_useragent库,用 阅读全文
posted @ 2018-11-09 11:37 喜喜睡吧 阅读(1596) 评论(1) 推荐(0) 编辑
摘要: 爬虫中主要用来解决Javascript渲染问题 1.声明浏览器对象: 2.访问页面: browser.get(url) 3.查找元素: 4.元素交互操作 5.执行javascript:excute_script() 6.获取元素信息: 阅读全文
posted @ 2018-11-09 10:59 喜喜睡吧 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 1. 字符串初始化: 2. URL初始化: 3. 文件初始化: 4. CSS选择器(id前加 ,class前加.): 1.查找元素:find() 返回所有元素 2.遍历元素:items() 5. DOM操作: 1.addclass、removeclass 2.attr 增加name属性 3.css 阅读全文
posted @ 2018-11-09 10:04 喜喜睡吧 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 1.BeautifulSoup支持的解析器: python标准库:BeautifulSoup(markup, "html.parser") 执行速度适中,文档容错能力强 lxml HTML解析器:BeautifulSoup(markup, "lxml") 执行速度适快,文档容错能力强 lxml XM 阅读全文
posted @ 2018-11-09 09:52 喜喜睡吧 阅读(179) 评论(0) 推荐(0) 编辑