2020 年 7月 28 日随笔档案 - 一只小白呀

2020年7月28日

摘要： #!/usr/bin/python # -*- coding:utf-8 -*- #post请求（携带了参数） #响应数据是一组json数据 import requests import json if __name__ == '__main__': #指定url post_url = 'https 阅读全文

posted @ 2020-07-28 19:59 一只小白呀阅读(297) 评论(0) 推荐(0)

nmap命令

摘要： nmap 192.168.1.1 nmap -sS -sV -T4 192.186.1.1 -sS:使用TCP SYN扫描 -sV:进行版本检测 -T4:使用的是一种快速扫描的方式，扫描速度的级别范围在（T0-T5）之间，级别越高，扫描速度越快。 nmap -A -T4 192.168.1.1 -A 阅读全文

posted @ 2020-07-28 11:05 一只小白呀阅读(282) 评论(0) 推荐(0)

python面试题

摘要： a = 1 def fun(a): a = 2 fun(a) print(a) #1 a = [] def fun(a): a.append(1) fun(a) print(a) #[1] 所有的变量都可以理解是内存中一个对象的“引用”，或者，也可以看似c中void*的感觉。通过id来看引用a的内阅读全文

posted @ 2020-07-28 09:33 一只小白呀阅读(15) 评论(0) 推荐(0)

selenium模块的基本使用

摘要： selenium模块的基本使用问题：selenium模块和爬虫之间的关联 - 便捷的获取网站中动态加载的数据 - 便捷实现模拟登录什么是selenium模块：基于浏览器自动化的模块 - 环境安装下载安装selenium：pip install selenium 下载浏览器驱动程序： http: 阅读全文

posted @ 2020-07-28 09:30 一只小白呀阅读(266) 评论(0) 推荐(0)

谷歌无头浏览器+反检测

摘要： from selenium import webdriver from time import sleep #实现无可视化界面 from selenium.webdriver.chrome.options import Options #实现规避检测风险 from selenium.webdrive 阅读全文

posted @ 2020-07-28 09:28 一只小白呀阅读(332) 评论(0) 推荐(0)

模拟登录QQ空间

摘要： from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('https://qzone.qq.com/') bro.sw 阅读全文

posted @ 2020-07-28 09:26 一只小白呀阅读(401) 评论(0) 推荐(0)

动作链和iframe的处理

摘要： from selenium import webdriver from time import sleep #导入动作链对应的类 from selenium.webdriver import ActionChains bro = webdriver.Chrome(executable_path='. 阅读全文

posted @ 2020-07-28 09:24 一只小白呀阅读(168) 评论(0) 推荐(0)

selenium其他自动化操作

摘要： from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('https://www.taobao.com/') #标签定阅读全文

posted @ 2020-07-28 09:22 一只小白呀阅读(94) 评论(0) 推荐(0)

selenium基础用法

摘要： from selenium import webdriver from lxml import etree from time import sleep #实例化一个浏览器对象(传入浏览器的驱动程序) bro = webdriver.Chrome(executable_path='./chromed 阅读全文

posted @ 2020-07-28 09:18 一只小白呀阅读(103) 评论(0) 推荐(0)

selenium演示程序

摘要： from selenium import webdriver from time import sleep # 后面是你的浏览器驱动位置，记得前面加r'','r'是防止字符转义的 driver = webdriver.Chrome(r'驱动程序路径') # 用get打开百度页面 driver.get 阅读全文

posted @ 2020-07-28 09:16 一只小白呀阅读(156) 评论(0) 推荐(0)

aiohttp实现多任务异步协程

摘要： #环境安装：pip install aiohttp #使用该模块中的ClientSession import requests import asyncio import time import aiohttp start = time.time() urls = [ 'http://127.0.0 阅读全文

posted @ 2020-07-28 09:13 一只小白呀阅读(295) 评论(0) 推荐(0)

多任务异步协程02

摘要： import requests import asyncio import time start = time.time() urls = [ 'http://127.0.0.1:5000/bobo', 'http://127.0.0.1:5000/jav', 'http://127.0.0.1:5 阅读全文

posted @ 2020-07-28 09:11 一只小白呀阅读(97) 评论(0) 推荐(0)

多任务协程01

摘要： https://ss1.bdstatic.com/70cFvXSh_Q1YnxGkpoWK1HF6hhy/it/u=2075903360,405209795&fm=26&gp=0.jpg 阅读全文

posted @ 2020-07-28 09:08 一只小白呀阅读(71) 评论(0) 推荐(0)

协程

摘要： import asyncio def request(url): print('正在请求的url是',url) print('请求成功',url) return url #async修饰的函数，调用之后返回的一个协程对象 c = request('www.baidu.com') # #创建一个事件循阅读全文

posted @ 2020-07-28 09:06 一只小白呀阅读(97) 评论(0) 推荐(0)

高性能异步爬虫

摘要：高性能异步爬虫目的：在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式： - 多线程、多进程（不建议）： - 好处：可以为相关阻塞的阻塞单独开启线程或者进程，阻塞操作就可以异步执行。 - 弊端：无法无限制的开启多线程或者多进程。 - 线程池、进程池（适当使用）： - 好处：可以降系统对进程阅读全文

posted @ 2020-07-28 09:04 一只小白呀阅读(171) 评论(0) 推荐(0)

线程池在爬虫案例中的应用

摘要： import requests from lxml import etree import re from multiprocessing.dummy import Pool #需求：爬取梨视频的视频数据 headers = { 'User-Agent':'Mozilla/5.0 (Windows 阅读全文

posted @ 2020-07-28 09:01 一只小白呀阅读(181) 评论(0) 推荐(0)

线程池的基本使用

摘要： # import time # #使用单线程串行方式执行 # def get_page(str): # print("正在下载：", str) # time.sleep(2) # print("下载成功：", str) # name_list = ["aa","bb","cc","dd"] # st 阅读全文

posted @ 2020-07-28 08:58 一只小白呀阅读(133) 评论(0) 推荐(0)

requests代理爬取

摘要： import requests import random if __name__ == "__main__": #不同浏览器的UA header_list = [ # 遨游 {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 阅读全文

posted @ 2020-07-28 08:56 一只小白呀阅读(132) 评论(0) 推荐(0)

python验证码识别

摘要：验证码识别反爬机制：验证码识别验证码图片中的数据用于模拟登录相关之间真的操作识别验证码的操作： - 人工肉眼的识别 - 第三方自动识别 - 云打码模拟登录： - 爬取基于某些基于用户的用户信息. 需求：对人人网进行模拟登录 - 点击登录按钮之后会发起一个post请求 - post请求中会携带阅读全文

posted @ 2020-07-28 08:54 一只小白呀阅读(259) 评论(0) 推荐(0)

获取人人网当前用户的个人详情页数据

摘要： #编码流程： #1.验证码的识别，获取验证码图片的文字数据 #2.对post请求进行发送（处理请求函数） #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #创建一个session 阅读全文

posted @ 2020-07-28 08:53 一只小白呀阅读(330) 评论(0) 推荐(0)

一只小白呀

Talk is cheap, show me the code.

公告