摘要: #!/usr/bin/python # -*- coding:utf-8 -*- #post请求(携带了参数) #响应数据是一组json数据 import requests import json if __name__ == '__main__': #指定url post_url = 'https 阅读全文
posted @ 2020-07-28 19:59 一只小白呀 阅读(282) 评论(0) 推荐(0) 编辑
摘要: nmap 192.168.1.1 nmap -sS -sV -T4 192.186.1.1 -sS:使用TCP SYN扫描 -sV:进行版本检测 -T4:使用的是一种快速扫描的方式,扫描速度的级别范围在(T0-T5)之间,级别越高,扫描速度越快。 nmap -A -T4 192.168.1.1 -A 阅读全文
posted @ 2020-07-28 11:05 一只小白呀 阅读(256) 评论(0) 推荐(0) 编辑
摘要: a = 1 def fun(a): a = 2 fun(a) print(a) #1 a = [] def fun(a): a.append(1) fun(a) print(a) #[1] 所有的变量都可以理解是内存中一个对象的“引用”,或者,也可以看似c中void*的感觉。 通过id来看引用a的内 阅读全文
posted @ 2020-07-28 09:33 一只小白呀 阅读(12) 评论(0) 推荐(0) 编辑
摘要: selenium模块的基本使用 问题:selenium模块和爬虫之间的关联 - 便捷的获取网站中动态加载的数据 - 便捷实现模拟登录 什么是selenium模块:基于浏览器自动化的模块 - 环境安装 下载安装selenium:pip install selenium 下载浏览器驱动程序: http: 阅读全文
posted @ 2020-07-28 09:30 一只小白呀 阅读(260) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from time import sleep #实现无可视化界面 from selenium.webdriver.chrome.options import Options #实现规避检测风险 from selenium.webdrive 阅读全文
posted @ 2020-07-28 09:28 一只小白呀 阅读(314) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('https://qzone.qq.com/') bro.sw 阅读全文
posted @ 2020-07-28 09:26 一只小白呀 阅读(388) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from time import sleep #导入动作链对应的类 from selenium.webdriver import ActionChains bro = webdriver.Chrome(executable_path='. 阅读全文
posted @ 2020-07-28 09:24 一只小白呀 阅读(161) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from time import sleep bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('https://www.taobao.com/') #标签定 阅读全文
posted @ 2020-07-28 09:22 一只小白呀 阅读(87) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from lxml import etree from time import sleep #实例化一个浏览器对象(传入浏览器的驱动程序) bro = webdriver.Chrome(executable_path='./chromed 阅读全文
posted @ 2020-07-28 09:18 一只小白呀 阅读(97) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from time import sleep # 后面是你的浏览器驱动位置,记得前面加r'','r'是防止字符转义的 driver = webdriver.Chrome(r'驱动程序路径') # 用get打开百度页面 driver.get 阅读全文
posted @ 2020-07-28 09:16 一只小白呀 阅读(149) 评论(0) 推荐(0) 编辑
摘要: #环境安装:pip install aiohttp #使用该模块中的ClientSession import requests import asyncio import time import aiohttp start = time.time() urls = [ 'http://127.0.0 阅读全文
posted @ 2020-07-28 09:13 一只小白呀 阅读(283) 评论(0) 推荐(0) 编辑
摘要: import requests import asyncio import time start = time.time() urls = [ 'http://127.0.0.1:5000/bobo', 'http://127.0.0.1:5000/jav', 'http://127.0.0.1:5 阅读全文
posted @ 2020-07-28 09:11 一只小白呀 阅读(85) 评论(0) 推荐(0) 编辑
摘要: https://ss1.bdstatic.com/70cFvXSh_Q1YnxGkpoWK1HF6hhy/it/u=2075903360,405209795&fm=26&gp=0.jpg 阅读全文
posted @ 2020-07-28 09:08 一只小白呀 阅读(66) 评论(0) 推荐(0) 编辑
摘要: import asyncio def request(url): print('正在请求的url是',url) print('请求成功',url) return url #async修饰的函数,调用之后返回的一个协程对象 c = request('www.baidu.com') # #创建一个事件循 阅读全文
posted @ 2020-07-28 09:06 一只小白呀 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取操作。 异步爬虫的方式: - 多线程、多进程(不建议): - 好处:可以为相关阻塞的阻塞单独开启线程或者进程,阻塞操作就可以异步执行。 - 弊端:无法无限制的开启多线程或者多进程。 - 线程池、进程池(适当使用): - 好处:可以降系统对进程 阅读全文
posted @ 2020-07-28 09:04 一只小白呀 阅读(163) 评论(0) 推荐(0) 编辑
摘要: import requests from lxml import etree import re from multiprocessing.dummy import Pool #需求:爬取梨视频的视频数据 headers = { 'User-Agent':'Mozilla/5.0 (Windows 阅读全文
posted @ 2020-07-28 09:01 一只小白呀 阅读(173) 评论(0) 推荐(0) 编辑
摘要: # import time # #使用单线程串行方式执行 # def get_page(str): # print("正在下载:", str) # time.sleep(2) # print("下载成功:", str) # name_list = ["aa","bb","cc","dd"] # st 阅读全文
posted @ 2020-07-28 08:58 一只小白呀 阅读(124) 评论(0) 推荐(0) 编辑
摘要: import requests import random if __name__ == "__main__": #不同浏览器的UA header_list = [ # 遨游 {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 阅读全文
posted @ 2020-07-28 08:56 一只小白呀 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 验证码识别 反爬机制:验证码 识别验证码图片中的数据用于模拟登录相关之间真的操作 识别验证码的操作: - 人工肉眼的识别 - 第三方自动识别 - 云打码 模拟登录: - 爬取基于某些基于用户的用户信息. 需求:对人人网进行模拟登录 - 点击登录按钮之后会发起一个post请求 - post请求中会携带 阅读全文
posted @ 2020-07-28 08:54 一只小白呀 阅读(254) 评论(0) 推荐(0) 编辑
摘要: #编码流程: #1.验证码的识别,获取验证码图片的文字数据 #2.对post请求进行发送(处理请求函数) #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #创建一个session 阅读全文
posted @ 2020-07-28 08:53 一只小白呀 阅读(309) 评论(0) 推荐(0) 编辑