随笔分类 -  机器学习

Apriori算法
摘要:算法原理 如果某个项集是频繁集,那么这个频繁集中任意子集都是频繁集。所谓频繁集即指该组合出现的概率达到了指定水平; Aprior算法用来实现查找K个最大频繁项,什么是最大频繁项,就是一组频繁项,任T个子项组合都是T项组合中最频繁的; 频繁项的评估标准有三个,分别是: 支持度(Support),代表含 阅读全文

posted @ 2020-06-23 17:19 张叫兽的技术研究院 阅读(664) 评论(0) 推荐(0) 编辑

Adaboost算法推导
摘要:Adaboost(Adaptive boosting)是boosting(提升)家族的重要算法。boosting家族算法的核心是串行训练学习器,可以理解为"站在巨人的肩膀",后一个学习器的学习是基于前一个学习器的学习基础之上的,对应的是bagging学习器,学习器之间没有依赖关系。 把握住Adabo 阅读全文

posted @ 2020-01-14 19:37 张叫兽的技术研究院 阅读(1184) 评论(0) 推荐(0) 编辑

决策树 – 回归
摘要:解决问题 实现基于特征范围的树状遍历的回归。 解决方案 通过寻找样本中最佳的特征以及特征值作为最佳分割点,构建一棵二叉树。选择最佳特征以及特征值的原理就是通过满足函数最小。其实选择的过程本质是对于训练样本的区间的分割,基于区间计算均值,最终区域的样本均值即为预测值。 在预测的时候,将会根据提供的样本 阅读全文

posted @ 2020-01-08 19:15 张叫兽的技术研究院 阅读(4215) 评论(0) 推荐(0) 编辑

正态分布,qqplot以及WS检测
摘要:正态分布 标准正态分布,查表值其实是标准差的值对应的到0点的面积,或者说是概率。标准差的计算是通过(X-μ)/ Δ,下图是标准正态分布图。 理解正态分布表很重要,正态分布表记录的是标准正态分布表,即: X~N(0, 1) 描述的是均值为0,方差为1的正态分布,要理解正态分布表,首先理解正态分布图,如 阅读全文

posted @ 2020-01-04 20:11 张叫兽的技术研究院 阅读(3785) 评论(0) 推荐(0) 编辑

什么是归一化和标准化
摘要:归一化(Rescaling,max-min normalization,有的翻译为离差标准化)是指将数据缩放到[0,1]范围内,公式如下: X' = [X - min(X)] / [max(X) - min(X)] 标准化(Standardization, Z-score normalization 阅读全文

posted @ 2020-01-01 23:33 张叫兽的技术研究院 阅读(7437) 评论(0) 推荐(0) 编辑

正则化L1和L2
摘要:基于距离的norm1和norm2 所谓正则化,就是在损失函数中增加范数,那么老调重弹一下,所谓范数是指空间向量的大小距离之和,那么范数有值单一向量而言的范数,其实所谓单点向量其实是指指定向量到原点的距离。 d = Σ||xi||· 还有针对两个向量求距离的范数;那么作为距离,最常用到的就是马哈顿距离 阅读全文

posted @ 2020-01-01 16:13 张叫兽的技术研究院 阅读(1162) 评论(0) 推荐(0) 编辑

决策树 – 分类
摘要:决策树算法 如何能够基于既有的数据来进行分类和回归?决策树是解决这类问题的机器学习模型。 解决思路是:通过样本特征的三个数字特征:1)满足特征值的样本数量;2)1)样本的分类各自数量有多该少;3)总的样本数量,来作为input参数,通过构建/选择的模型就计算出来该特征的指标,对于ID3而是信息增益, 阅读全文

posted @ 2019-12-26 20:38 张叫兽的技术研究院 阅读(575) 评论(0) 推荐(0) 编辑

SVM – 回归
摘要:SVM的算法是很versatile的,在回归领域SVM同样十分出色的。而且和SVC类似,SVR的原理也是基于支持向量(来绘制辅助线),只不过在分类领域,支持向量是最靠近超平面的点,在回归领域,支持向量是那些距离拟合曲线(回归的目标函数/模型是拟合曲线)。 上图我们看到还有一个变量,是ϵ,ϵ决定了街道 阅读全文

posted @ 2019-12-17 10:44 张叫兽的技术研究院 阅读(1362) 评论(0) 推荐(0) 编辑

SVM – 核函数
摘要:核函数的起源是对于线性不可分的分类情况,其实可以通过p次方多项式,及非线性模型进行分类;然后对于这类非线性多次方的,其实可以按照广义线性模型来进行升维变形,使之成为线性模型,这样就可以放到SVM中来进行处理了(svm只能处理非线性模型)。 但是升维之后是有维度爆炸现象的(二次方对应6维度,三次方对应 阅读全文

posted @ 2019-12-17 10:42 张叫兽的技术研究院 阅读(1346) 评论(0) 推荐(0) 编辑

SVM – 线性分类器
摘要:感知机 要理解svm,首先要先讲一下感知机(Perceptron),感知机是线性分类器,他的目标就是通过寻找超平面实现对样本的分类;对于二维世界,就是找到一条线,三维世界就是找到一个面,多维世界就是要找到一个线性表达式,或者说线性方程: f(x) = ΣθiXi 表达式为0,就是超平面,用来做分界线 阅读全文

posted @ 2019-12-17 10:31 张叫兽的技术研究院 阅读(1172) 评论(0) 推荐(0) 编辑

机器学习谚语
摘要:机器学习的一个假设就是学习的默认建模使用的训练数据和真实/测试数据分布是一致的。所以如果数据分布不一致,是无法使用一个模型来进行拟合的。 数据科学家最重要的一个能力就是能够“定义问题”。 如何掌握一个模型/算法?在研究的过程要念念不忘几个点:模型是什么,损失函数是什么,都有哪些超参数影响模型。模型, 阅读全文

posted @ 2019-10-01 14:18 张叫兽的技术研究院 阅读(233) 评论(0) 推荐(0) 编辑

Pandas的DataFrame
摘要:1. 手工创建DataFrame 1 a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]] 2 data = DataFrame(a) 2. Excel数据数据没有顶头的处理 1 import os 2 import pandas as pd 3 ba 阅读全文

posted @ 2019-08-30 13:12 张叫兽的技术研究院 阅读(422) 评论(0) 推荐(0) 编辑

销售分析第二天:线性回归
摘要:y = groupall.values[:, 2:] x = range(np.shape(y)[1]) plt.plot(x, y[0], "b.") x2 = np.array(x).reshape(-1,1) y2 = np.array(y[0]).reshape(-1,1) plt.plot(x2, y2, "r.") sgd_reg2 = SGDRegressor(n_iter_n... 阅读全文

posted @ 2019-07-27 22:47 张叫兽的技术研究院 阅读(173) 评论(0) 推荐(0) 编辑

销售分析最后几天
摘要:第三天 1. csv文件的读取确实要比excel文件快很多; 2. 在panython3中的range就是python2中的xrange; 第四天 3. 发现300天的拟合出现了严重的准度问题,都出现负值了,首先我把负值都处理为0,情况仍然,然后,开始我怀疑是自己的predict超出了fit范围导致,但是发现predict的x即使和fit的相同,仍然y_predict非常离谱;接着,于是我怀疑是不... 阅读全文

posted @ 2019-07-27 22:36 张叫兽的技术研究院 阅读(162) 评论(0) 推荐(0) 编辑

深度神经网络
摘要:隐藏层(hidden layer) 为什么叫隐藏层?因为是黑盒角色;输入层输入到"黑盒",将会得到进行运算,最后数据到输出层。隐藏层是深度学习一个基本概念。 输入层是原始数据样本,注意每个原始样本的滑窗范围(也叫感受视野,local receptive fields,也被称之为卷积核,还常被称之为filter,和"深度"意思一致)对应着隐藏层一个节点,这个映射过程是通过将输入数据*权重... 阅读全文

posted @ 2019-07-27 21:28 张叫兽的技术研究院 阅读(369) 评论(0) 推荐(0) 编辑

关于线性回归的矩阵格式
摘要:直接上代码: x [[1] [2] [3] [4]] y [[2] [4] [6] [8]] line.coef_: [[2.]] line.intercept_: [0.] 完美,这是非常标准的线性回归的参数形式;看到coef和intercept也是和我们预期是相符的。 下面的是转置之后的数据处理 阅读全文

posted @ 2019-07-13 16:14 张叫兽的技术研究院 阅读(856) 评论(0) 推荐(0) 编辑

Tensorflow问题
摘要:TypeError: 'urban' has type str, but expected one of: bytes 在前面添加"b"(例如,b'urban'),或者处理为variableName.encode("utf8") Variable count_var2 already exists, 阅读全文

posted @ 2019-07-13 15:44 张叫兽的技术研究院 阅读(1151) 评论(0) 推荐(0) 编辑

朴素贝叶斯
摘要:其实贝叶斯算法本质是某些特征取特定特征值的情况下,指定特征的概率是多少的算法: P(feature_x=value_0|feature_1=value1,feature_2=value2,feature_3=value3); 算法的实现就是将刚才描述的条件式转化为指定特征为指定特征值的情况下,某个特征的取某个特征值的概率是多大 =>P(feature... 阅读全文

posted @ 2019-07-13 15:37 张叫兽的技术研究院 阅读(276) 评论(0) 推荐(0) 编辑

日志分类以及TFIDF
摘要:TF的概念是Term Frequent,是一个单词出现的频率,是一个局部概念,就是这个单词在指定文件中出现的频率,公式如下: 但是呢,这个TF其实很没有说服力,比如the,a之类的频率很高,但是其实不能实现很好地分类标志,尽管可以在停用词中进行禁用,但是很多单词还是无法全部禁用干净;这个时候就引入了IDF,Inverse Document Frequent,反向文档频率(我称之为区分度公式),... 阅读全文

posted @ 2019-07-13 15:36 张叫兽的技术研究院 阅读(1596) 评论(0) 推荐(0) 编辑

深度学习-反向传播
摘要:终于明白了反向传播的意义。 核心要明白一个概念就是求导就是要通过构建的正向链,然后再通过反向链求导数值。 为什么要求导数值?因为要求最小值。求什么最小值? 求的是损失函数的最小值,可以通过数值方式(倒数公式)来进行求导,也可以通反向传播的方式来求导。 为什么要求损失函数的极值? 因为要通过损失函数的 阅读全文

posted @ 2019-06-08 22:48 张叫兽的技术研究院 阅读(370) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示