07 2018 档案
摘要:一 机器学习分类 有监督学习 1 概述: 主要用于决策支持,它利用有 标识 的历史数据进行训练,以实现对新数据的表示的预测 2 分类: 分类计数预测的数据对象是 离散 的。如短信是否为垃圾短信,用户是否喜欢电子产品 比如: K近邻、朴素贝叶斯、决策树、SVM 3 回归: 回归技术预测的数据对象是
阅读全文
摘要:1 朴素贝叶斯概述 朴素贝叶斯是一种简单但是非常强大的线性分类器。它在垃圾邮件分类,疾病诊断中都取得了很大的成功。它只所以称为朴素,是因为它假设特征之间是相互独立的,但是在现实生活中,这种假设基本上是不成立的。那么即使是在假设不成立的条件下,它依然表现的很好,尤其是在小规模样本的情况下。但是,如
阅读全文
摘要:1 决策树概述 决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直
阅读全文
摘要:一 评价尺度 sklearn包含四种评价尺度 1 均方差(mean squared error) 2 平均绝对值误差(mean_absolute_error) 3 可释方差得分(explained_variance_score) 4 中值绝对误差(Median absolute error) 5 R
阅读全文
摘要:一 线性回归(Linear Regression ) 1. 线性回归概述 回归的目的是预测数值型数据的目标值,最直接的方法就是根据输入写出一个求出目标值的计算公式,也就是所谓的回归方程,例如y = ax1+bx2,其中求回归系数的过程就是回归。那么回归是如何预测的呢?当有了这些回归系数,给定输入,具
阅读全文
摘要:1 机器学习处理流程: 2 机器学习分类: 有监督学习 主要用于决策支持,它利用有标识的历史数据进行训练,以实现对新数据的表示的预测 1 分类 分类计数预测的数据对象是离散的。如短信是否为垃圾短信,用户是否喜欢电子产品 常用方法: K近邻、朴素贝叶斯、决策树、SVM 2 回归 回归技术预测的数据对象
阅读全文
摘要:plot语句中支持除X,Y以外的参数,以字符串形式存在,来控制颜色、线型、点型等要素,语法形式为: plt.plot(X, Y, 'format', ...) 1 点和线的样式 颜色 透明度 背景色 设置背景色,通过plt.subplot()方法传入facecolor参数,来设置坐标轴的背景色 线型
阅读全文
摘要:1 Scipy简介 Scipy依赖于Numpy Scipy提供了真正的矩阵 Scipy包含的功能:最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等 Scipy是高端科学计算工具包 Scipy由一些特定功能的子模块组成 2 图片消噪:傅里叶变换 3
阅读全文
摘要:常见聚合方法 | 方法 | 说明 | | | | | count | 计数 | | describe | 给出各列的常用统计量 | | min,max | 最大最小值 | | argmin,argmax | 最大最小值的索引位置(整数) | | idxmin,idxmax | 最大最小值的索引值 |
阅读全文
摘要:注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 或` COOKIES_ENABLED = False` 策略一:直接POST数据(比如需要登陆的账户信息) 只要是需要提供post数据的,就可以用这种方法。下面示例里post的数
阅读全文
摘要:1 安装环境 2 安装flask 3 工具 4 flask注意事项 5 简化if else 6 类方法 静态方法 7 API接口 8 一般常见app下的目录结构与框架搭建 9 数据表创建三种方式 10 flask中上下文 11 线程与进程 12 编程思维
阅读全文
摘要:一 TCP网络协议 1 建立TCP连接:三次握手原则 1. 客户端通过向服务器端发送一个SYN来创建一个主动打开,作为三次握手的一部分。客户端把这段连接的序号设定为随机数 A。 2. 服务器端应当为一个合法的SYN回送一个SYN/ACK。ACK 的确认码应为 A+1,SYN/ACK 包本身又有一个随
阅读全文
摘要:1 数据库事务处理 一个数据库事务通常包含对数据库进行读或写的一个操作序列 . 当一个事务被提交给了DBMS(数据库管理系统),则DBMS需要确保该事务中的所有操作都成功完成且其结果被永久保存在数据库中,如果事务中有的操作没有成功完成,则事务中的所有操作都需要被回滚. 1 为数据库提供了一个从失败恢
阅读全文
摘要:在线源码: GITHub : https://github.com/whyjust/fisher 鱼书项目模块化总结 项目总体思路 .png) 模型类 视图蓝本 表单验证数据API flask上下文/ajax .png) 1 异步发送邮件模块 邮件发送: 需要进行注册邮件发送或者功能模块需要发送邮件
阅读全文
摘要:1. 通常防止爬虫被反主要有以下几个策略 (1)动态设置User Agent(随机切换User Agent,模拟不同的浏览器) 方法1: 修改setting.py中的User Agent 方法2: 修改setting中的 DEFAULT_REQUEST_HEADERS 方法3 : 在代码中修改 (2
阅读全文
摘要:一 新浪新闻爬取 1 爬取新浪新闻(全站爬取) 项目搭建与开启 2 项目setting配置 3 启动文件start.py配置 4 需求目标item配置 5 爬虫逻辑文件配置mysina.py 方法二 :mysina.py也可采用scrapy创建请求 6 管道存储pipelines.py 方法二 :
阅读全文
摘要:1 parse()方法的工作机制: 2 CrawlSpiders:定义了一些规则跟进link 通过下面的命令可以快速创建 CrawlSpider模板 的代码: 上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样... 它是Spider的派生类,Spid
阅读全文
摘要:Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端
阅读全文
摘要:Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处
阅读全文
摘要:1、进程的概念 什么是进程— CPU在同一时刻只能处理一个任务,只是因为cpu执行速度很快。 cpu在各个任务之间来回的进行切换。 进程的概念 :正在进行的一个过程或者说一个任务,而负责执行任务的则是CPU,进程本身是 一个抽象的概念,即进程就是一个过程、一个任务。 CPU描述的是一个程序的执行过程
阅读全文
摘要:在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程! 为什么这么说,我们先明确一个概念,全局解释器锁(GIL) 什么是GIL Python代码的执行由Python虚拟机(解释器)来控制,同时只有一个线程在执行。对Python虚拟机的访问由全局解释器锁(GIL)来控制,
阅读全文
摘要:1 多线程抓取 2 多协程抓取 3 多进程抓取 4 多线程加协程 5 多进程加协程
阅读全文

浙公网安备 33010602011771号