``` Ubuntu操作基本快捷键 * 打开主菜单 = Alt + F1 * 运行 = Alt + F2 * 打开终端 = Alt+F2 然后输入gnome-terminal回车 * 显示桌面 = Ctrl + Alt + d * 最小化当前窗口 = Alt + F9 * 最大化当前窗口 = Alt + F10 * 关闭当前窗口 = Alt + F4 * 截取全屏 = Print Screen *
职位属性分析 json 根据XHR获取的数据json 数据获取(浏览器) 可以使用无头浏览器获取数据 使用工具获取数据 操作流程 1,获取url(无头浏览器) 2,根据每个url 去获取他的职位细节 考虑将无头浏览器的功能封装到一个类里面使用 4,保存数据 以什么格式保存,后期可以随时获取分析,保存
未完成 豆瓣电影 https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=660&limit=20 https://movie.douban.com/j/chart/top_list?t
2020.2.19 编辑 整体示例 定位元素 查找单个元素 常用的查找元素方法: find_element_by_name (标签名称) find_element_by_id find_element_by_xpath find_element_by_link_text find_element_b
https://pyquery.readthedocs.io/en/latest/ pyquery allows you to make jquery queries on xml documents. The API is as much as possible the similar to jq
5,BeautifulSoup 获取数据 快速了解 解析器 Beautiful Soup支持Python标准库中的HTML解析器(Python标准库解析器),还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装
4,正则匹配-数据获取 https://docs.python.org/zh-cn/3/library/re.html 正则表达式是对字符串操作的一种逻辑公式,事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符",这个"规则字符" 来表达对字符的一种过滤逻辑 常见的正则表达式符号和特
xpath XPath 使用路径表达式在 XML 文档中进行导航. XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 1) 可在XML中查找信息 2) 支持HTML的查找 3) 通过元素和属性进行导航 安装 术语 节点
3,Requests-网络请求 Requests是用python语言基于urllib编写的 总体功能演示 import requests response = requests.get("https://www.baidu.com") print(type(response)) <class 're
2,Urllib库使用 网络请求 "URL 处理模块" 1. 项目列表urllib 是一个收集了多个用到 URL 的模块的包: 2. 项目列表urllib.request 打开和读取 URL 3. 项目列表urllib.error 包含 urllib.request 抛出的异常 4. 项目列表url
1,爬虫知识来源 "Python爬虫参考文档" 可以爬取的数据 网页文本:如HTML文档,Json格式化文本等 图片:获取到的是二进制文件,保存为图片格式 视频:同样是二进制文件 其他:只要请求到的,都可以获取 解析数据使用的方法 1. 直接处理 2. Json解析 3. 正则表达式处理 4. Be
1、西刺免费代理IP http://www.xicidaili.com/ 2、66免费代理 http://www.66ip.cn/ 3、有代理IP http://www.youdaili.net/ 4、快代理 https://www.kuaidaili.com/free/ 5、云代理 http://
来源: https://www.cnblogs.com/mecca/p/4414474.html
安装jieba 使用 常用词统计分析 根据已创建好的字典分词
```python from selenium import webdriver driver = webdriver.Firefox() driver.get("https://www.useit.com.cn/thread-25202-1-1.html") tbody = driver.find_elements_by_tag_name("tbody") imgs = tbody[6].fin
##linux 空间清理 #发现有大量刚刚删除文件的进程存在,kill掉进程(或者重启进程) OK lsof | grep deleted #循环检测发现大目录及其内的文件 du -h --max-depth=1 | sort -gr ##获取大文件 到jenkins的家目录 find . -typ
Role based Authorization Strategy 插件管理: 安装成功后操作: strategy/ strategy/manage roles Manage
插件官方: http://mirrors.jenkins ci.org/status.html cn jenkins 插件中心配置: 访问: 升级站点 https://updates.jenkins.i
jenkins从角色管理权限策略转移,默认策略后再登录,管理员登陆提示:Access Denied admin没有Overall/Read权限 此时可以登录,但是不能够对jenkins系统进行配置. 操作: 1, 进入jenkins 家目录下,有config.xml 一般为~/.jenkins 目录
调整图像大小
获取每一页的链接 网店节点链接 只有2.htm 会变 所以对https://www.kuaidi100.com/network/net_4117_all_all_2 数字累加,并判断网店的链接是否为0来决定 匹配url , url 一次累加 对url 链接不断累加,如果判断对一个网页里的网店链接信息
pandas 参考文档: https://pandas.pydata.org/pandas docs/stable/ 简易教程: https://www.yiibai.com/pandas/python_pandas_quick_start.html 快速入门 环境准备 对象创建 series da
《Python数据分析基础教程,munpy学习指南(第二版)》:代码 http://www.pudn.com/Download/item/id/2742220.html numpy 学习指南 http://www.pudn.com/Download/item/id/2742220.html http
已阅读 2020 02 27 大数据时代:生活、工作与思维的大变革 通过对大数据的数据分析,获取隐藏在数据中的关联,并对后续进行预测 未排期 《Python科学计算》 NumPyBeginner's Guide 2nd》/《Python数据分析基础教程:NumPy学习指南(第2版)》 《Python
apt方式安装 官网参考: https://dev.mysql.com/doc/mysql apt repo quick guide/en/ 执行命令: 出现图形话界面 选择第一个然后修改数据库版本为5.7 ok 确定 卸载
```python #!/bin/env python3 #import os #os.system("mysql -uai -pai -e 'use ipd_db; desc m_method_type ' > ipd_db.tables") import os with open('data_in') as f: for line in f.readlines(): # print(line.
数据来源 数据:https://pan.baidu.com/s/1DNoRDu 7IJAnY6NP7Slphg 提取码:vqxw 分析平台: jupyter lab anaconda 版本: Anaconda3 2019.07 Linux x86_64.sh 用了之前的版本发现绘图比较模糊,更换版本
妈的 anaconda 版本太低,导致matlotlib 画图不清晰, 换个就好了,不然图形总是一坨 wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3 2019.07 Linux x86_64.sh 操作 下载字
