摘要:
工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标,其中第一、二类主要用于分类场景、第三类主要用于回归预测场景,基本思路是从概念公式,到优缺点,再到具体应用(分类问题,本文以二分类为例)。 1.准确率P、召回率R、F1 值 定义 准确率(Precision): 阅读全文
摘要:
一、logistic回归概述 主要是进行二分类预测,也即是对于0~1之间的概率值,当概率大于0.5预测为1,小于0.5预测为0.显然,我们不能不提到一个函数,即sigmoid=1/(1+exp(-inX)),该函数的曲线类似于一个s型,在x=0处,函数值为0.5. 于是,为了实现logistic分类 阅读全文
摘要:
1 准备知识:条件概率公式 相信学过概率论的同学对于概率论绝对不会陌生,如果一时觉得生疏,可以查阅相关资料,在这里主要是想贴出条件概率的计算公式: P(A|B)=P(A,B)/P(B)=P(B|A)*P(A)/P(B) 2 如何使用条件概率进行分类 假设这里要被分类的类别有两类,类c1和类c2,那么 阅读全文
摘要:
决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺少不敏感,可以处理不相关特征数据 缺点:过拟合 决策树的构造 熵:混乱程度,信息的期望值 其中p(xi)是选择分类的概率 熵就是计算所有类别所有可能值包含的信息期望值,公式如下: (公式2) 构造基本思路 信息增益 = 初始香农熵-新计算得 阅读全文
摘要:
K近邻算法简单概述 K近邻算法采用测量不同特征值之间的距离方法进行分类 该方法的思路是:如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近),那么这k个实例中大多数属于哪个类别,则该样本也属于这个类别。 其中,计算样本与其他实例的相似性一般采用距离衡量法。离得越近越相似,离得越远越不相似 阅读全文
摘要:
Mini-Batch 1. 把训练集打乱,但是X和Y依旧是一一对应的 2.创建迷你分支数据集 Momentum 1初始化 2动量更新参数 Adam Adam算法是训练神经网络中最有效的算法之一,它是RMSProp算法与Momentum算法的结合体。 1.初始化参数 2.Adam算法实现 def up 阅读全文
摘要:
2.1xm1http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml3. PyOpensslhttps://pypi.python.org/pypi/pyOpenSSL#downloads4. Twistedhttp://www.lfd.uci.edu/~goh 阅读全文
摘要:
reshape重塑数组 ravel 拉平数组 concatenate 最一般化的连接,沿一条轴连接一组数组 # print(np.concatenate([arr1,arr2],axis = 0)) # print(np.concatenate([arr1, arr2], axis = 1)) # 阅读全文
摘要:
seed 确定随机数生成器的种子 permutation 返回一个序列的随机排列或返回一个随机排列的返回 shuffle 对一个序列就地随机乱序 rand 产生均匀分布的样本值 randint 从给定的上下限范围内随机选取整数 randn 产生正态分布(平均值为0,标准差为1) binomial 产 阅读全文
摘要:
diag 以一维数组的形式返回方阵的对角线(或非对角线元素),获将一维数组转换 为方阵(非对角线元素为0)。 dot 矩阵乘法 trace 计算对角线元素的和 det 计算矩阵行列式 eig 计算方阵的特征值和特征向量 inv 计算方阵的逆 pinv 计算矩阵的Moore-Penrose伪逆 qr 阅读全文