摘要: 爬虫常用Xpath和CSS3选择器对比 1. 简介 CSS是来配合HTML工作的,和Xpath对比起来,CSS选择器通常都比较短小,但是功能不够强大。CSS中的空白符' '和Xpath的'//'都表示当前元素的所有后代(子孙)元素。 2. 对比 对于元素(标签)的操作,Xpath和CSS基本上都能通 阅读全文
posted @ 2019-02-25 18:43 StrivePy 阅读(1252) 评论(0) 推荐(0) 编辑
摘要: 面试题总结 1 Python面试题 1.1 简要描述Python中单引号、双引号、三引号的区别 通常情况下,单引号和双引号没有区别,都是表示单行字符串。 特殊情况下,单引号和双引号可以嵌套使用来避免字符串本身带有双引号和单引号而使用转义字符的情况。 三引号分为三单引号和三双引号,三单引号一般用来输入 阅读全文
posted @ 2018-10-07 20:01 StrivePy 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 抓包工具的安装和配置 1 Charles的安装和配置 1.1 Charles的安装 下载地址:https://www.charlesproxy.com/download/ 安装地址:D:\Python\Charles 系统版本:W10 64位 注册破解: Registered Name: https 阅读全文
posted @ 2018-09-21 16:01 StrivePy 阅读(1259) 评论(0) 推荐(0) 编辑
摘要: Python3 常用爬虫库的安装 1 简介 Windows下安装Python3常用的爬虫库:requests、selenium、beautifulsoup4、pyquery、pymysql、pymongo、redis、flask、django、jupyter和scrapy框架。 进入控制台,用pip 阅读全文
posted @ 2018-09-20 23:19 StrivePy 阅读(10153) 评论(0) 推荐(2) 编辑
摘要: Git 命令详解 1 Git 下载和安装 1.1 Git 下载地址 官网下载地址(速度较慢):https://git-scm.com/downloads 国内镜像地址(速度较快): https://pan.baidu.com/s/1kU5OCOB#list/path=%2Fpub%2Fgit 根据自 阅读全文
posted @ 2018-09-19 18:42 StrivePy 阅读(1422) 评论(0) 推荐(0) 编辑
摘要: 1 需求分析 想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称、职位名称、薪资待遇、学历要求、岗位需求等信息。该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息,并将爬取下来的信息存入数据库。 2 目标站点分析 目标站点:https://www.lagou.co 阅读全文
posted @ 2018-09-09 19:35 StrivePy 阅读(1892) 评论(0) 推荐(1) 编辑
摘要: BeautifuSoup和Pyquery解析库方法比较 1.对象初始化: BeautifySoup库: 1 from bs4 import BeautifulSoup 2 3 html = 'html string......' 4 soup = BeautifulSoup(html, 'lxml' 阅读全文
posted @ 2018-07-02 12:44 StrivePy 阅读(1428) 评论(0) 推荐(0) 编辑
摘要: 1. urllib.robotparse模块对robot.txt文件的解析,can_fetch()方法和parse()方法。 Page121 2. lxml.etree模块自动补全Html代码,Html()方法和parse()两种方法打开文件。 Page159 阅读全文
posted @ 2018-06-28 12:43 StrivePy 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 1. 读取selenium模块保存的本地cookie文件来访问知乎 读取http://www.cnblogs.com/strivepy/p/9233389.html保存的本地cookie来访问知乎的用户设置界面,用selenium保存下来的json文件如下格式: 包含很多用不到的信息,比如path、 阅读全文
posted @ 2018-06-27 13:19 StrivePy 阅读(2927) 评论(0) 推荐(0) 编辑
摘要: pass 阅读全文
posted @ 2018-06-27 13:18 StrivePy 阅读(2009) 评论(1) 推荐(0) 编辑