05 2019 档案
摘要:上面的博客把基本的HTML解析库已经说完了,这次我们来给予几个实战的项目。 这次主要用Requests库+正则表达式来解析HTML。 项目一:爬取猫眼电影TOP100信息 代码地址:https://gitee.com/dwyui/maoyan-Requests.git 项目二:美食爬取(包含多层爬取
阅读全文
摘要:什么是Selenium库: 自动化测试工具,支持多种浏览器。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。 爬虫中主要用来解决JavaScript渲染的问题。用于驱动浏览器,并且给予浏览器动作。 安装S
阅读全文
摘要:什么是pyQuery: 强大又灵活的网页解析库。如果你觉得正则写起来太麻烦(我不会写正则),如果你觉得BeautifulSoup的语法太难记,如果你熟悉JQuery的语法,那么PyQuery就是你最佳的选择。 pyQuery的安装pip3 install pyquery即可安装啦。 pyQuery的
阅读全文
摘要:BeautifulSoup是什么? BeautifulSoup是一个网页解析库,相比urllib、Requests要更加灵活和方便,处理高校,支持多种解析器。 利用它不用编写正则表达式即可方便地实现网页信息的提取。 BeautifulSoup的安装:直接输入pip3 install beautifu
阅读全文
摘要:1,什么是Requests库 Requests是用python语言编写,基于urllib,采用Apache2 Licensed 开源协议的HTTP库。 它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求,用一句话来说,Requests是 python实现的简单易用的HTTP库
阅读全文
摘要:urllib库的使用方法
阅读全文