11 2022 档案
摘要:完整代码及其数据,请移步小编的GitHub 传送门:请点击我 如果点击有误:https://github.com/LeBron-Jian/MachineLearningNote 网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,所以最好的教程其实就是官方文档。 官方文档地址:h
阅读全文
摘要:项目的模型 连接MySQL数据库设置 默认情况下,配置使用SQLite。若不使用SQLite作为数据库,则需要额外的设置,例如 USER,PASSWORD和HOST必须加入。 其中ENGINE设置为数据库后端使用。内置数据库后端有: 'django.db.backends.postgresql' '
阅读全文
摘要:1.web开发模式 1 前后端混合开发 前后端不分离 返回html内容 2 .前后端分离 # 专注写json格式的数据xml 页面静态化 API接口
阅读全文
摘要:BASE_DIR :用来在项目中构建路径 SECRET_KEY :项目生成时候用的秘钥 DEBUG:调试模式,在写代码的时候打开,投入使用了就不用了 ALLOWED_HOSTS=['*']:运行那些ip来进行访问,*代表所有 APPEND_SLASH = True 是要不要在url后加/ 用来定义我
阅读全文
摘要:http协议 超文本传输协议:用来规定浏览器和服务端的数据格式 四大特性 1.基于请求响应 2.基于tcp/IP作用于应用层之上的协议 3.无状态,不保存用户的信息 由于http协议是无状态的,所以后来就出现了一些用来保存用户状态的技术:cookie,session,token。。。 4.无/短链接
阅读全文
摘要:五个方法: 中间件可以定义五个方法,分别是:(主要的是process_request和process_response) process_request(self,request) process_response(self, request, response) process_view(self
阅读全文
摘要:Web开发介绍: 目前Web开发属于Browser/Server模式,简称BS架构,开发语言有(Python、PHP、Java ...)。 基于Python的Web工作原理如下: 框架介绍: 什么是框架? 软件框架就是为实现或完成某种软件开发时,提供了一些基础的软件产品, 框架的功能类似于基础设施,
阅读全文
摘要:django-drf的基础使用
阅读全文
摘要:CS架构与BS架构 CS架构 是Client/Service这两个单词的首字母,指的是客户端服务器架构的意思,很多常见的软件都是这种架构。 解释: 对于CS架构,最为常见的例子就是网络游戏,比如LOL、WOW如果不联网无法使用,你在软件内的所有操作通过互联网能够传递到其他的玩家身上。 优点: 第一,
阅读全文
摘要:理论知识-操作系统 2022年7月25日 14:30 操作系统 现代的计算机系统主要是由一个或者多个处理器,主存,硬盘,键盘,鼠标,显示器,打印机,网络接口及其他输入输出设备组成。 一般而言,现代计算机系统是一个复杂的系统。 其一:如果每位应用程序员都必须掌握该系统所有的细节,那就不可能再编写代码了
阅读全文
摘要:发邮件 2022年7月31日 14:37 import os from openpyxl import load_workbook import win32com.client as win32 wb = load_workbook("``邮件地址``.xlsx") ws = wb.active a
阅读全文
摘要:Urllib 2021年12月9日 20:21 Python urllib Python urllib 库用于操作网页 URL,并对网页的内容进行抓取处理。 本文主要介绍 Python3 的 urllib。 urllib 包 包含以下几个模块: urllib.request - 打开和读取 URL。
阅读全文
摘要:sys模块 2022年7月12日 21:13 sys.argv: 参数字符串列表(动态对象),第一个参数为当前程序主文件的绝对路径或空字符串,如果在命令提示符界面给``Python``文件传了参数(不同的参数以空格分隔,无论传入的时候写的是什么类型,最终都会转成字符串),可以在这里面获取(从第二个位
阅读全文
摘要:基础知识 面对对象: 核心是“对象”二字 对象就是将程序高度整合 对象是“容器”,用来存放数据和功能 类也是容器:该容器用来存放同类对象的数据与功能,类的对象是类似于数据和功能的集合体,所以类中最常见的是变量和函数的定义,但是类体中可以包含其他代码 优点:提升程序的解耦合度,进而增强程序的可扩展性
阅读全文
摘要:编程风格 \#!/usr/bin/env python #在文件头部 ( 第一行 ) 加上 设置 Python 解释器 \# -*- coding: utf-8 -*- #在文件头部 ( 第二行 ) 加上 在编辑器中设置以 UTF-8 默认编码保存文件 \# Copyright (c) *** #版
阅读全文
摘要:redis基础 1.初识redis Redis是一种键值型的NoSql数据库,这里有两个关键字: 键值型 NoSql 其中键值型,是指Redis中存储的数据都是以key、value对的形式存储,而value的形式多种多样,可以是字符串、数值、甚至json: 而NoSql则是相对于传统关系型数据库而言
阅读全文
摘要:安装 """ pip install pyhs2 等待这个模块安装完成之后不要关闭命令行,接着在新的一行去执行命令。此时这个命令的作用是开启hive服务,否则python程序无法成功连接,命令如下: hive --service hiveserver 这个是启动hive """ python3.7
阅读全文
摘要:前提条件 已安装Python-3.6。 已经有搭建好的完全分布式集群,并已经成功启动Hadoop,Zookeeper和HBase。笔者当前搭建好的集群是Hadoop-3.0.3,Zookeeper-3.4.13和HBase-2.1.0。 | Hostname | IP | | : : | : : |
阅读全文
摘要:安装 安装hadoop 关于hadoop的安装配置会在另一篇文章中介绍,这里只介绍python的hdfs库的安装. 安装hdfs库 所有python的三方模块均采用pip来安装. pip install hdfs hdfs库的使用 下面将介绍hdfs库的方法列表,并会与hadoop自带的命令行工具进
阅读全文
摘要:Redis安装说明 大多数企业都是基于Linux服务器来部署项目,而且Redis官方也没有提供Windows版本的安装包。因此课程中我们会基于Linux系统来安装Redis. 此处选择的Linux版本为CentOS 7. Redis的官方网站地址:https://redis.io/ 1.单机安装Re
阅读全文
摘要:本文由 简悦 SimpRead 转码, 原文地址 mp.weixin.qq.com 仅供学习研究 。请勿用于非法用途,本人将不承担任何法律责任。 前言 app 某某咖啡 v4.4.0 mitmproxy 抓包 java 分析 定位到 CryptoHelper 类的名为 md5_crypt 的 nat
阅读全文
摘要:II. 油猴脚本 *维基百科里的解释:油猴脚本其实是指(用户脚本管理器),而我们大众口中所说的油猴脚本,更多是指用户脚本; Greasemonkey,简称GM,中文俗称为“油猴”,是Firefox的一个附加组件(用户脚本管理器)。它让用户安装一些脚本使大部分HTML为主的网页于用户端直接改变得更方便
阅读全文
摘要:如果你对逆向有所涉猎的话,可能听说过 Hook,利用 Hook 技术我们可以在某一逻辑的前后加入自定义的逻辑处理代码,几乎可以实现任意逻辑的修改。 在前面的 JavaScript 逆向实战课时我们也初步体会了 Hook 的功效,如果你对 Hook 的概念还不太了解,可以搜索一下“Hook 技术”相关
阅读全文
摘要:我们知道 Web 站点有多种渲染和反爬方式,渲染分为服务端渲染和客户端渲染;反爬也是多种多样,如请求头验证、WebDriver 限制、验证码、字体反爬、封禁 IP、账号验证等等,综合来看 Web 端的反爬虫方案也是多种多样。 但 App 的情况略有不同,一般来说,App 的数据通信大都需要依赖独立的
阅读全文
摘要:我们在爬取网站的时候,经常会遇到各种各样类似加密的情形,比如: 某个网站的 URL 带有一些看不懂的长串加密参数,想要抓取就必须要懂得这些参数是怎么构造的,否则我们连完整的 URL 都构造不出来,更不用说爬取了。 分析某个网站的 Ajax 接口的时候,可以看到接口的一些参数也是加密的,或者 Requ
阅读全文
摘要:使用 Pyppeteer 针对之前的 Selenium 案例做一次改写,来体会一下二者的不同之处,同时也加强一下对 Pyppeteer 的理解和掌握情况。 还是 Selenium 的那个案例,地址为:https://dynamic2.scrape.cuiqingcai.com/ 爬取目标和那一节也是
阅读全文
摘要:实例引入 比如在这里我们看这么一个示例网站:https://static4.scrape.cuiqingcai.com/, 这个网站在内部实现返回响应的逻辑的时候特意加了 5 秒的延迟,也就是说如果我们用 requests 来爬取其中某个页面的话,至少需要 5 秒才能得到响应。 另外这个网站的逻辑结
阅读全文
摘要:数据的编码与加密 ASCII编码 ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准ISO/I
阅读全文
摘要:常见加密算法: 对称加密(加密解密密钥相同):DES、3DES、AES、RC4、Rabbit 非对称加密(区分公钥和私钥):RSA、DSA、ECC 消息摘要算法/签名算法:MD5、SHA、HMAC、PBKDF2 常见编码算法:Base64 JavaScript 加密解密模块 Crypto-JS Cr
阅读全文
摘要:来源:CSDN 参考即可 上个课时我们讲解了 Ajax 的分析方法,利用 Ajax 接口我们可以非常方便地完成数据的爬取。只要我们能找到 Ajax 接口的规律,就可以通过某些参数构造出对应的的请求,数据自然就能被轻松爬取到。 但是,在很多情况下,Ajax 请求的接口通常会包含加密的参数,如 toke
阅读全文
摘要:页面解析之数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。 关于结构化的数据 JSON、XML 关于非结构化的数据 关于HTML文本(包含JavaScript代码) HTML文本(包含JavaScript代码)
阅读全文
摘要:HTTP协议介绍 设计HTTP(HyperText Transfer Protocol)是为了提供一种发布和接收HTML(HyperText Markup Language)页面的方法。 Http组成 由两部分组成:请求与响应 客户端请求消息 客户端发送一个HTTP请求到服务器的请求消息包括以下格式
阅读全文
摘要:爬虫基本原理 爬虫是 模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.sina.com.cn/ 简单来说这段过程发生了以下四个步骤: 查找域名对应的IP地址。 向IP对应的服务器发送请求。
阅读全文