2018年9月3日

Python 爬虫_Request+正则表达式爬取猫眼电影Top100

摘要: 流程框架: 1. 抓取但也网页内容 2. 正则表达式分析 3. 开启循环及多线程 4. 保存至文件 代码如下: 阅读全文

posted @ 2018-09-03 20:18 你是不夜星空 阅读(229) 评论(0) 推荐(0) 编辑

python 爬虫_Selenium详细用法

摘要: Selenium 自动化测试工具,支持多种浏览器,在爬虫中主要解决JS的渲染问题 1.基本使用 2.查找方式 单个元素: 多个元素: browser.find_element(By.ID,'q') 3. 元素交互操作: https://selenium-python-zh.readthedocs.i 阅读全文

posted @ 2018-09-03 13:26 你是不夜星空 阅读(272) 评论(0) 推荐(0) 编辑

python 爬虫_BeautifulSoup详细用法

摘要: BeautifulSoup 中文文档: https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html;https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/# 网页解析库, 阅读全文

posted @ 2018-09-03 13:20 你是不夜星空 阅读(232) 评论(0) 推荐(0) 编辑

python 爬虫_PyQuery详细用法

摘要: 总结:语法和JQuery一样 1. 初始化 2. 基本的CSS选择器 3. DOM操作 4. PyQuery 中文文档: http://www.pyspider.cn/book/pyspider/response-17.html 阅读全文

posted @ 2018-09-03 13:17 你是不夜星空 阅读(183) 评论(0) 推荐(0) 编辑

Python 爬虫_正则表达式

摘要: 用来对字符串操作的一种逻辑方式, 对字符串的一种过滤逻辑。 表达式全集: http://tool.oschina.net/uploads/apidocs/jquery/regexp.html 1. 2. 匹配目标: 3. 贪婪匹配: 4. 转义: 特殊字符需要转义 5. re.search: 扫描字 阅读全文

posted @ 2018-09-03 11:02 你是不夜星空 阅读(201) 评论(0) 推荐(0) 编辑

导航