摘要:
''' 一 目标站点分析 浏览器输入https://github.com/login 然后输入错误的账号密码,抓包 发现登录行为是post提交到:https://github.com/session 而且请求头包含cookie 而且请求体包含: commit:Sign in utf8:✓ authenticity_token:lbI8IJCwGslZS8qJPnof5e7ZkCoSoMn6jmD... 阅读全文
摘要:
介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的Scheduler 阅读全文
摘要:
介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。 但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Ass 阅读全文
摘要:
介绍 基于GET请求 带参数的GET请求->params 带参数的GET请求->headers 带参数的GET请求->cookies 基于POST请求 发送post请求,模拟浏览器的登录行为 补充 响应Response response属性 编码问题 获取二进制数据 解析json Redirecti 阅读全文
摘要:
8. 用户管理工具 8.1. 用户 添加用户 $useradd -m username 该命令为用户创建相应的帐号和用户目录/home/username; 用户添加之后,设置密码: 密码以交互方式创建: $passwd username 删除用户 $userdel -r username 不带选项使 阅读全文
摘要:
9. 系统管理及IPC资源管理 9.1. 系统管理 查询系统版本 查看Linux系统版本: $uname -a $lsb_release -a 查看Unix系统版本:操作系统版本: $more /etc/release 查询硬件信息 查看CPU使用情况: $sar -u 5 10 查询CPU信息: 阅读全文
摘要:
7. 网络工具 7.1. 查询网络服务和端口 netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态 (Interface Statistics),masquerade 连接,多播成员 (Multicast Memberships) 等等。 列出所有端口 (包括监听和未监听的): 阅读全文
摘要:
6. 性能监控 在使用操作系统的过程中,我们经常需要查看当前的性能如何,需要了解CPU、内存和硬盘的使用情况; 本节介绍的这几个工具能满足日常工作要求; 6.1. 监控CPU 查看CPU使用率 $sar -u eg: $sar -u 1 2 [/home/weber#]sar -u 1 2 Linu 阅读全文
摘要:
5. 进程管理工具 使用进程管理工具,我们可以查询程序当前的运行状态,或终止一个进程; 任何进程都与文件关联;我们会用到lsof工具(list opened files),作用是列举系统中已经被打开的文件。在linux环境中,任何事物都是文件,设备是文件,目录是文件,甚至sockets也是文件。用好 阅读全文
摘要:
4. 磁盘管理 日程磁盘管理中,我们最常用的有查看当前磁盘使用情况,查看当前目录所占大小,以及打包压缩与解压缩; 日程磁盘管理中,我们最常用的有查看当前磁盘使用情况,查看当前目录所占大小,以及打包压缩与解压缩; 4.1. 查看磁盘空间 查看磁盘空间利用大小: df -h -h: human缩写,以易 阅读全文
摘要:
3. 文本处理 3.1. find 文件查找 查找txt和pdf文件: find . \( -name "*.txt" -o -name "*.pdf" \) -print 正则方式查找.txt和pdf: find . -regex ".*\(\.txt|\.pdf\)$" -iregex: 忽略大 阅读全文
摘要:
2. 文件及目录管理 文件管理不外乎文件或目录的创建、删除、查询、移动,有mkdir/rm/mv 文件查询是重点,用find来进行查询;find的参数丰富,也非常强大; 查看文件内容是个大的话题,文本的处理有太多的工具供我们使用,在本章中只是点到即止,后面会有专门的一章来介绍文本的处理工具; 有时候 阅读全文
摘要:
1. 学会使用命令帮助 1.1. 概述 在linux终端,面对命令不知道怎么用,或不记得命令的拼写及参数时,我们需要求助于系统的帮助文档; linux系统内置的帮助文档很详细,通常能解决我们的问题,我们需要掌握如何正确的去使用它们; 在只记得部分命令关键字的场合,我们可通过man -k来搜索; 需要 阅读全文
摘要:
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys ... 阅读全文
摘要:
介绍 安装 基本使用 选择器 基本用法 xpath 获取标签属性 等待元素被加载 元素交互操作 其他 阅读全文
摘要:
#注意:网站都策略都是在不断变化的,精髓在于学习流程。下述代码生效与2017-11-7,不能保证永久有效 from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.com... 阅读全文
摘要:
#_*_coding:utf-8_*_ __author__ = 'Linhaifeng' ''' 强大而又灵活的网页解析库,如果你觉得正则写起来太麻烦,如果你觉得beutifulsoup 语法太难记,如果你熟悉jquery的语法,那么pyquery是最佳选择 安装pyquery pip3 install pyquery ''' html=''' 哈哈哈 ... 阅读全文
摘要:
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 你可能在寻找 Beautiful Soup3 的文档,Beautiful So 阅读全文
摘要:
import requests import re import time import hashlib def get_page(url): print('GET %s' %url) try: response=requests.get(url) if response.status_code == 200: retur... 阅读全文
摘要:
爬虫是什么 爬虫的基本流程 请求与响应 Request Response 总结 阅读全文