摘要:
1 配置参数 #1 是否遵循爬虫协议ROBOTSTXT_OBEY = False#2 浏览器类型(默认写的是scrapy,)USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko 阅读全文
摘要:
1 xpath的使用 1 css xpath 通用的2 XPath 使用路径表达式在 XML 文档中选取节点3 lxml模块为例,讲xpath选择(selenium,scrapy 》css/xpath)4 用法:# / :从当前节点开始选择,子节点# // :从当前节点开始选择,子子节点# @选取 阅读全文
摘要:
爬拉勾网职位信息 #https://www.lagou.com/jobs/positionAjax.json?city=%E4%B8%8A%E6%B5%B7&needAddtionalResult=falseimport requests#实际要爬取的urlurl = 'https://www. 阅读全文
摘要:
1 bs4 遍历文档树 '''#遍历文档树:即直接通过标签名字选择,特点是选择速度快,但如果存在多个相同的标签则只返回第一个#1、用法#2、获取标签的名称#3、获取标签的属性#4、获取标签的内容#5、嵌套选择#6、子节点、子孙节点#7、父节点、祖先节点#8、兄弟节点'''from bs4 i 阅读全文