Loading

该文被密码保护。 阅读全文
posted @ 2020-03-09 23:00 Lust4Life 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 职位属性分析 json 根据XHR获取的数据json 数据获取(浏览器) 可以使用无头浏览器获取数据 使用工具获取数据 操作流程 1,获取url(无头浏览器) 2,根据每个url 去获取他的职位细节 考虑将无头浏览器的功能封装到一个类里面使用 4,保存数据 以什么格式保存,后期可以随时获取分析,保存 阅读全文
posted @ 2020-03-09 22:54 Lust4Life 阅读(659) 评论(0) 推荐(0) 编辑
摘要: 未完成 豆瓣电影 https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=660&limit=20 https://movie.douban.com/j/chart/top_list?t 阅读全文
posted @ 2020-03-09 22:49 Lust4Life 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 2020.2.19 编辑 整体示例 定位元素 查找单个元素 常用的查找元素方法: find_element_by_name (标签名称) find_element_by_id find_element_by_xpath find_element_by_link_text find_element_b 阅读全文
posted @ 2020-03-09 22:48 Lust4Life 阅读(141) 评论(0) 推荐(0) 编辑
摘要: https://pyquery.readthedocs.io/en/latest/ pyquery allows you to make jquery queries on xml documents. The API is as much as possible the similar to jq 阅读全文
posted @ 2020-03-09 22:46 Lust4Life 阅读(1340) 评论(0) 推荐(0) 编辑
摘要: 5,BeautifulSoup 获取数据 快速了解 解析器 Beautiful Soup支持Python标准库中的HTML解析器(Python标准库解析器),还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装 阅读全文
posted @ 2020-03-09 22:44 Lust4Life 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 4,正则匹配-数据获取 https://docs.python.org/zh-cn/3/library/re.html 正则表达式是对字符串操作的一种逻辑公式,事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑 常见的正则表达式符号和特 阅读全文
posted @ 2020-03-09 22:42 Lust4Life 阅读(1954) 评论(0) 推荐(0) 编辑
摘要: xpath XPath 使用路径表达式在 XML 文档中进行导航. XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 1) 可在XML中查找信息 2) 支持HTML的查找 3) 通过元素和属性进行导航 安装 术语 节点 阅读全文
posted @ 2020-03-09 22:41 Lust4Life 阅读(3487) 评论(1) 推荐(1) 编辑
摘要: 3,Requests-网络请求 Requests是用python语言基于urllib编写的 总体功能演示 import requests response = requests.get("https://www.baidu.com") print(type(response)) <class 're 阅读全文
posted @ 2020-03-09 22:40 Lust4Life 阅读(572) 评论(0) 推荐(0) 编辑
摘要: 2,Urllib库使用 网络请求 "URL 处理模块" 1. 项目列表urllib 是一个收集了多个用到 URL 的模块的包: 2. 项目列表urllib.request 打开和读取 URL 3. 项目列表urllib.error 包含 urllib.request 抛出的异常 4. 项目列表url 阅读全文
posted @ 2020-03-09 22:39 Lust4Life 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 1,爬虫知识来源 "Python爬虫参考文档" 可以爬取的数据 网页文本:如HTML文档,Json格式化文本等 图片:获取到的是二进制文件,保存为图片格式 视频:同样是二进制文件 其他:只要请求到的,都可以获取 解析数据使用的方法 1. 直接处理 2. Json解析 3. 正则表达式处理 4. Be 阅读全文
posted @ 2020-03-09 22:37 Lust4Life 阅读(156) 评论(0) 推荐(0) 编辑