随笔分类 - 爬虫
摘要:一、流程框架
阅读全文
摘要:一、爬取流程 二、代码演示
阅读全文
摘要:官方学习文档:http://selenium-python.readthedocs.io/api.html 一、什么是Selenium? 答:自动化测试工具,支持多种浏览器。用来驱动浏览器,发出指令让浏览器做出各种动作,如下拉,跳转等。 爬虫中主要用来解决JavaScript渲染的问题。 注:如果用
阅读全文
摘要:官方学习文档:http://pyquery.readthedocs.io/en/latest/api.html 一、什么是PyQuery? 答:强大有灵活的网页解析库,模仿jQuery实现。如果你觉得正则表达式写起来太麻烦,如果你觉的BeautifulSoup语法太难记,如果你熟悉jQuery的语法
阅读全文
摘要:官方学习文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 一、什么时BeautifulSoup? 答:灵活又方便的网页解析库,处理搞笑,支持多种解析器。 利用它不用编写正则表达式即可方便地实现网页信息的提取。 二、安装 三、用法
阅读全文
摘要:在线正则表达式匹配:http://tool.oschina.net/regex 正则表达式学习:https://c.runoob.com/front-end/854 一、什么是正则表达式? 常见匹配模式 re.match re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的
阅读全文
摘要:python爬虫知识点总结(一)库的安装 python爬虫知识点总结(二)爬虫的基本原理 python爬虫知识点总结(三)urllib库详解 python爬虫知识点总结(四)Requests库的基本使用 python爬虫知识点总结(五)正则表达式 python爬虫知识点总结(六)BeautifulS
阅读全文
摘要:官方文档:http://docs.python-requests.org/en/master 安装方法 命令行下输入:pip3 install requests。详见:https://www.cnblogs.com/cthon/p/9388304.html 一、什么是Requets? requets
阅读全文
摘要:一、什么是Urllib? 官方学习文档:https://docs.python.org/3/library/urllib.html 廖雪峰的网站:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e5
阅读全文
摘要:一、什么是爬虫? 答:请求网页并提取数据的自动化程序。 二、爬虫的基本流程 三、什么是Request和Response? 1、Request 2、Response 四、能抓取怎样的数据 五、解析方式 六、怎么解决JavaScript渲染的问题? 七、怎么保存数据? 测试代码:
阅读全文
摘要:PhantomJS快速入门 本文简要介绍了PhantomJS的相关基础知识点,主要包括PhantomJS的介绍、下载与安装、HelloWorld程序、核心模块介绍等。由于鄙人才疏学浅,难免有疏漏之处,欢迎指正交流。 1、PhantomJS是什么? PhantomJS是一个基于webkit的JavaS
阅读全文
摘要:selenium 是一个web的自动化测试工具,不少学习功能自动化的同学开始首选selenium ,相因为它相比QTP有诸多有点: * 免费,也不用再为破解QTP而大伤脑筋 * 小巧,对于不同的语言它只是一个包而已,而QTP需要下载安装1个多G 的程序。 * 这也是最重要的一点,不管你以前更熟悉C、
阅读全文
摘要:环境要求: 1、编程语言版本python3; 2、系统:win10; 3、浏览器:Chrome68.0.3440.75;(如果不是最新版有可能影响到程序执行) 4、chromedriver2.41 注意点:pip3 install 命令必须在管理员权限下才能有效下载! 一、安装python3 不是本
阅读全文