2019 年 3月 12 日随笔档案 - 离去墨染

2019年3月12日

摘要： ''' 一目标站点分析浏览器输入https://github.com/login 然后输入错误的账号密码，抓包发现登录行为是post提交到：https://github.com/session 而且请求头包含cookie 而且请求体包含： commit:Sign in utf8:✓ authenticity_token:lbI8IJCwGslZS8qJPnof5e7ZkCoSoMn6jmD... 阅读全文

posted @ 2019-03-12 21:03 离去墨染阅读(512) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要：介绍原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，然后重写Scrapy的Scheduler，让新的Scheduler 阅读全文

posted @ 2019-03-12 20:59 离去墨染阅读(217) 评论(0) 推荐(0) 编辑

爬虫框架：scrapy

摘要：介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Ass 阅读全文

posted @ 2019-03-12 20:56 离去墨染阅读(361) 评论(0) 推荐(0) 编辑

requests模块

摘要：介绍基于GET请求带参数的GET请求->params 带参数的GET请求->headers 带参数的GET请求->cookies 基于POST请求发送post请求，模拟浏览器的登录行为补充响应Response response属性编码问题获取二进制数据解析json Redirecti 阅读全文

posted @ 2019-03-12 20:41 离去墨染阅读(152) 评论(0) 推荐(0) 编辑

Linux基础-8 用户管理工具

摘要： 8. 用户管理工具 8.1. 用户添加用户 $useradd -m username 该命令为用户创建相应的帐号和用户目录/home/username；用户添加之后，设置密码：密码以交互方式创建: $passwd username 删除用户 $userdel -r username 不带选项使阅读全文

posted @ 2019-03-12 20:32 离去墨染阅读(365) 评论(0) 推荐(0) 编辑

Linux基础-9系统管理及IPC资源管理

摘要： 9. 系统管理及IPC资源管理 9.1. 系统管理查询系统版本查看Linux系统版本: $uname -a $lsb_release -a 查看Unix系统版本：操作系统版本: $more /etc/release 查询硬件信息查看CPU使用情况: $sar -u 5 10 查询CPU信息: 阅读全文

posted @ 2019-03-12 20:32 离去墨染阅读(299) 评论(0) 推荐(0) 编辑

Linux基础-7网络工具

摘要： 7. 网络工具 7.1. 查询网络服务和端口 netstat 命令用于显示各种网络相关信息，如网络连接，路由表，接口状态 (Interface Statistics)，masquerade 连接，多播成员 (Multicast Memberships) 等等。列出所有端口 (包括监听和未监听的): 阅读全文

posted @ 2019-03-12 20:31 离去墨染阅读(247) 评论(0) 推荐(0) 编辑

Linux基础-6性能监控

摘要： 6. 性能监控在使用操作系统的过程中，我们经常需要查看当前的性能如何，需要了解CPU、内存和硬盘的使用情况；本节介绍的这几个工具能满足日常工作要求； 6.1. 监控CPU 查看CPU使用率 $sar -u eg: $sar -u 1 2 [/home/weber#]sar -u 1 2 Linu 阅读全文

posted @ 2019-03-12 20:30 离去墨染阅读(242) 评论(0) 推荐(0) 编辑

Linux基础-5进程管理工具

摘要： 5. 进程管理工具使用进程管理工具，我们可以查询程序当前的运行状态，或终止一个进程；任何进程都与文件关联；我们会用到lsof工具（list opened files），作用是列举系统中已经被打开的文件。在linux环境中，任何事物都是文件，设备是文件，目录是文件，甚至sockets也是文件。用好阅读全文

posted @ 2019-03-12 20:29 离去墨染阅读(184) 评论(0) 推荐(0) 编辑

Linux基础-4磁盘管理

摘要： 4. 磁盘管理日程磁盘管理中，我们最常用的有查看当前磁盘使用情况，查看当前目录所占大小，以及打包压缩与解压缩；日程磁盘管理中，我们最常用的有查看当前磁盘使用情况，查看当前目录所占大小，以及打包压缩与解压缩； 4.1. 查看磁盘空间查看磁盘空间利用大小: df -h -h: human缩写，以易阅读全文

posted @ 2019-03-12 20:28 离去墨染阅读(150) 评论(0) 推荐(0) 编辑

Linux基础-3文本处理

摘要： 3. 文本处理 3.1. find 文件查找查找txt和pdf文件: find . $ -name "*.txt" -o -name "*.pdf" $ -print 正则方式查找.txt和pdf: find . -regex ".*$\.txt|\.pdf$$" -iregex：忽略大阅读全文

posted @ 2019-03-12 20:27 离去墨染阅读(291) 评论(0) 推荐(0) 编辑

Linux基础-2文件及目录管理

摘要： 2. 文件及目录管理文件管理不外乎文件或目录的创建、删除、查询、移动，有mkdir/rm/mv 文件查询是重点，用find来进行查询；find的参数丰富，也非常强大；查看文件内容是个大的话题，文本的处理有太多的工具供我们使用，在本章中只是点到即止，后面会有专门的一章来介绍文本的处理工具；有时候阅读全文

posted @ 2019-03-12 20:26 离去墨染阅读(219) 评论(0) 推荐(0) 编辑

Linux基础-1使用命令帮助

摘要： 1. 学会使用命令帮助 1.1. 概述在linux终端，面对命令不知道怎么用，或不记得命令的拼写及参数时，我们需要求助于系统的帮助文档； linux系统内置的帮助文档很详细，通常能解决我们的问题，我们需要掌握如何正确的去使用它们；在只记得部分命令关键字的场合，我们可通过man -k来搜索；需要阅读全文

posted @ 2019-03-12 20:25 离去墨染阅读(184) 评论(0) 推荐(0) 编辑

爬取京东商城商品信息

摘要： from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys ... 阅读全文

posted @ 2019-03-12 20:21 离去墨染阅读(260) 评论(0) 推荐(0) 编辑

selenium模块

摘要：介绍安装基本使用选择器基本用法 xpath 获取标签属性等待元素被加载元素交互操作其他阅读全文

posted @ 2019-03-12 20:20 离去墨染阅读(170) 评论(0) 推荐(0) 编辑

自动登录163邮箱并发送邮件

摘要： #注意：网站都策略都是在不断变化的，精髓在于学习流程。下述代码生效与2017-11-7，不能保证永久有效 from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.com... 阅读全文

posted @ 2019-03-12 20:20 离去墨染阅读(331) 评论(0) 推荐(0) 编辑

pyquery模块

摘要： #_*_coding:utf-8_*_ __author__ = 'Linhaifeng' ''' 强大而又灵活的网页解析库,如果你觉得正则写起来太麻烦,如果你觉得beutifulsoup 语法太难记,如果你熟悉jquery的语法,那么pyquery是最佳选择安装pyquery pip3 install pyquery ''' html=''' 哈哈哈 ... 阅读全文

posted @ 2019-03-12 20:12 离去墨染阅读(157) 评论(0) 推荐(0) 编辑

BeautifulSoup模块

摘要： Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 你可能在寻找 Beautiful Soup3 的文档,Beautiful So 阅读全文

posted @ 2019-03-12 20:11 离去墨染阅读(187) 评论(0) 推荐(0) 编辑

爬取校花网视频

摘要： import requests import re import time import hashlib def get_page(url): print('GET %s' %url) try: response=requests.get(url) if response.status_code == 200: retur... 阅读全文

posted @ 2019-03-12 20:05 离去墨染阅读(263) 评论(0) 推荐(0) 编辑

爬虫基本原理

摘要：爬虫是什么爬虫的基本流程请求与响应 Request Response 总结阅读全文

posted @ 2019-03-12 20:04 离去墨染阅读(128) 评论(0) 推荐(0) 编辑

墨染

公告