2020 年 3月 9 日随笔档案 - Lust4Life

2020年3月9日

该文被密码保护。阅读全文

posted @ 2020-03-09 23:00 Lust4Life 阅读(46) 评论(0) 推荐(0) 编辑

摘要：职位属性分析 json 根据XHR获取的数据json 数据获取(浏览器) 可以使用无头浏览器获取数据使用工具获取数据操作流程 1,获取url(无头浏览器) 2,根据每个url 去获取他的职位细节考虑将无头浏览器的功能封装到一个类里面使用 4,保存数据以什么格式保存,后期可以随时获取分析,保存阅读全文

posted @ 2020-03-09 22:54 Lust4Life 阅读(659) 评论(0) 推荐(0) 编辑

9-豆瓣电影

摘要：未完成豆瓣电影 https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=660&limit=20 https://movie.douban.com/j/chart/top_list?t 阅读全文

posted @ 2020-03-09 22:49 Lust4Life 阅读(220) 评论(0) 推荐(0) 编辑

8selenium

摘要： 2020.2.19 编辑整体示例定位元素查找单个元素常用的查找元素方法: find_element_by_name (标签名称) find_element_by_id find_element_by_xpath find_element_by_link_text find_element_b 阅读全文

posted @ 2020-03-09 22:48 Lust4Life 阅读(141) 评论(0) 推荐(0) 编辑

7，pyquery获取数据

摘要： https://pyquery.readthedocs.io/en/latest/ pyquery allows you to make jquery queries on xml documents. The API is as much as possible the similar to jq 阅读全文

posted @ 2020-03-09 22:46 Lust4Life 阅读(1340) 评论(0) 推荐(0) 编辑

6,BeautifulSoup-获取数据

摘要： 5,BeautifulSoup 获取数据快速了解解析器 Beautiful Soup支持Python标准库中的HTML解析器(Python标准库解析器),还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装阅读全文

posted @ 2020-03-09 22:44 Lust4Life 阅读(209) 评论(0) 推荐(0) 编辑

5-正则匹配获取数据

摘要： 4,正则匹配-数据获取 https://docs.python.org/zh-cn/3/library/re.html 正则表达式是对字符串操作的一种逻辑公式，事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符”，这个“规则字符” 来表达对字符的一种过滤逻辑常见的正则表达式符号和特阅读全文

posted @ 2020-03-09 22:42 Lust4Life 阅读(1954) 评论(0) 推荐(0) 编辑

4，xpath获取数据

摘要： xpath XPath 使用路径表达式在 XML 文档中进行导航. XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 1）可在XML中查找信息 2）支持HTML的查找 3）通过元素和属性进行导航安装术语节点阅读全文

posted @ 2020-03-09 22:41 Lust4Life 阅读(3487) 评论(1) 推荐(1) 编辑

3-Requests网络请求

摘要： 3,Requests-网络请求 Requests是用python语言基于urllib编写的总体功能演示 import requests response = requests.get("https://www.baidu.com") print(type(response)) <class 're 阅读全文

posted @ 2020-03-09 22:40 Lust4Life 阅读(572) 评论(0) 推荐(0) 编辑

2，urllib库-网络请求

摘要： 2,Urllib库使用网络请求 "URL 处理模块" 1. 项目列表urllib 是一个收集了多个用到 URL 的模块的包： 2. 项目列表urllib.request 打开和读取 URL 3. 项目列表urllib.error 包含 urllib.request 抛出的异常 4. 项目列表url 阅读全文

posted @ 2020-03-09 22:39 Lust4Life 阅读(250) 评论(0) 推荐(0) 编辑

1，爬虫概览

摘要： 1,爬虫知识来源 "Python爬虫参考文档" 可以爬取的数据网页文本：如HTML文档，Json格式化文本等图片：获取到的是二进制文件，保存为图片格式视频:同样是二进制文件其他：只要请求到的，都可以获取解析数据使用的方法 1. 直接处理 2. Json解析 3. 正则表达式处理 4. Be 阅读全文

posted @ 2020-03-09 22:37 Lust4Life 阅读(156) 评论(0) 推荐(0) 编辑

Loading

𝖑𝖚𝖘𝖙4𝖑𝖎𝖋𝖊

公告