摘要: 反爬的三个方向基于身份识别进行反爬 基于爬虫行为进行反爬 基于数据加密进行反爬 常见基于身份识别进行反爬 1 通过headers字段来反爬headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫1.1 通过headers中的User-Agent字段来反爬反爬原理:爬虫默认情 阅读全文
posted @ 2021-09-20 23:18 Einewhaw 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 我们在爬取网站的时候,经常会遇到各种各样类似加密的情形,比如: 某个网站的 URL 带有一些看不懂的长串加密参数,想要抓取就必须要懂得这些参数是怎么构造的,否则我们连完整的 URL 都构造不出来,更不用说爬取了。分析某个网站的 Ajax 接口的时候,可以看到接口的一些参数也是加密的,或者 Reque 阅读全文
posted @ 2021-09-20 23:00 Einewhaw 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 在日常的数据处理中,经常会对一个DataFrame进行逐行、逐列和逐元素的操作,对应这些操作,Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。 本文演示的数据集是模拟生成的 import pandas as pd import numpy as np bool 阅读全文
posted @ 2021-09-20 21:38 Einewhaw 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 1.连接数据库 你可以使用以下2种方法 # -*- coding: utf-8 -*- #导入pymongo中的MongoClient模块 from pymongo importMongoClient #第一种方法:使用host和port client1 = MongoClient(host,por 阅读全文
posted @ 2021-09-20 19:50 Einewhaw 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 11.request操作 这是一个专门用来操作网页请求的模块,今天我们围绕这个来具体讲解。 1)request.method 它是request中的请求方法,一般我们用的比较多的便是get和post,由于get 和post需要配合表单一起使用,在这里我们暂时不讲前端的内容,只做简单的演示。 一、ge 阅读全文
posted @ 2021-09-20 19:15 Einewhaw 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 一、安装flask pip install flask #需要注意的是,还有flake,那个是检查错误的模块,不要搞混了 可以看到成功了,总共下载了四个模块,分别是对应的web开发中的模板渲染,网络服务都是一些flask依赖包。 二、flask的用法 1.启动 既然说到用法,那第一个就肯定得说说它是 阅读全文
posted @ 2021-09-20 19:03 Einewhaw 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 一.数据预处理 数据预处理是特征工程中最为重要的一个环节,良好的数据预处理可以使模型的训练达到事半功倍的效果。数据预处理旨在通过归一化、标准化、正则化等方式改进不完整、不一致、无法直接使用的数据。具体方法有: 1.归一化 归一化是对数据集进行区间缩放,缩放到[0,1]的区间内,把有单位的数据转化为没 阅读全文
posted @ 2021-09-20 18:23 Einewhaw 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 1. 能说下myisam 和 innodb的区别吗? myisam引擎是5.1版本之前的默认引擎,支持全文检索、压缩、空间函数等,但是不支持事务和行级锁,所以一般用于有大量查询少量插入的场景来使用,而且myisam不支持外键,并且索引和数据是分开存储的。 innodb是基于聚簇索引建立的,和myis 阅读全文
posted @ 2021-09-20 18:07 Einewhaw 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 1. 安装 pip install openpyxl 2. 打开文件 ① 创建 from openpyxl import Workbook # 实例化 wb = Workbook() # 激活 worksheet ws = wb.active ② 打开已有 >>> from openpyxl imp 阅读全文
posted @ 2021-09-20 13:08 Einewhaw 阅读(111) 评论(0) 推荐(0) 编辑