Fork me on GitHub

随笔分类 -  数据挖掘

摘要:准: bias描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,简单讲,就是在样本上拟合的好不好。要想在bias上表现好,low bias,就得复杂化模型,增加模型的参数,但这样容易过拟合 (overfitting),过拟合对应上图是high variance,点很分散。low 阅读全文
posted @ 2018-06-28 19:13 stardsd 阅读(8189) 评论(0) 推荐(2) 编辑
摘要:WHAT IS THE DIFFERENCE BETWEEN CATEGORICAL, ORDINAL AND INTERVAL VARIABLES? In talking about variables, sometimes you hear variables being described a 阅读全文
posted @ 2018-05-02 10:30 stardsd 阅读(630) 评论(0) 推荐(0) 编辑
摘要:首先,搞清楚商品与单品的区别。例如,iphone是一个单品,但是在淘宝上当很多商家同时出售这个产品的时候,iphone就是一个商品了。 商品:淘宝叫item,京东叫product,商品特指与商家有关的商品,每个商品有一个商家编码,每个商品下面有多个颜色,款式,可以有多个SKU。 SPU = Stan 阅读全文
posted @ 2018-04-23 21:53 stardsd 阅读(796) 评论(0) 推荐(0) 编辑
摘要:最近偶尔在重温统计学,发现自己工作后用了各种高级的统计分析方法,各种统计模型,却忽视了统计学中一些最基础的知识,而这些知识是所有这些高级方法的基础,基础不扎实,高级方法用起来真觉得底气不足,今天看到哑变量在回归分析中的应用,总结如下: 哑变量(Dummy Variable),也叫虚拟变量,引入哑变量 阅读全文
posted @ 2018-04-14 19:11 stardsd 阅读(31877) 评论(1) 推荐(0) 编辑
摘要:In this step-by-step Keras tutorial, you’ll learn how to build a convolutional neural network in Python! In fact, we’ll be training a classifier for h 阅读全文
posted @ 2018-03-05 20:08 stardsd 阅读(1186) 评论(0) 推荐(0) 编辑
摘要:A z-score (aka, a standard score) indicates how many standard deviations an element is from the mean. A z-score can be calculated from the following f 阅读全文
posted @ 2018-03-02 22:53 stardsd 阅读(3220) 评论(0) 推荐(0) 编辑
摘要:HMM的模型 图1 如上图所示,白色那一行描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,蓝紫色那一行是各个状态生成可观测的随机序列 话说,上面也是个贝叶斯网络,而贝叶斯网络中有这么一种,如下图: 代表:c确定时a和b独立。(c为实心圆代表:c已经被确定) 这时,如果把z1看成a,x1看成b, 阅读全文
posted @ 2018-02-26 19:39 stardsd 阅读(21455) 评论(0) 推荐(2) 编辑
摘要:模型后处理 作者:Trent Hauck 译者:飞龙 协议:CC BY-NC-SA 4.0 5.1 K-fold 交叉验证 这个秘籍中,我们会创建交叉验证,它可能是最重要的模型后处理验证练习。我们会在这个秘籍中讨论 k-fold 交叉验证。有几种交叉验证的种类,每个都有不同的随机化模式。K-fold 阅读全文
posted @ 2018-01-30 23:37 stardsd 阅读(1285) 评论(0) 推荐(0) 编辑
摘要:preface:做实验少不了交叉验证,平时常用from sklearn.cross_validation import train_test_split,用train_test_split()函数将数据集分为训练集和测试集,但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们提 阅读全文
posted @ 2018-01-30 23:37 stardsd 阅读(784) 评论(0) 推荐(0) 编辑
摘要:本文结构: 什么是交叉验证法? 为什么用交叉验证法? 主要有哪些方法?优缺点? 各方法应用举例? 什么是交叉验证法? 它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。 为什么用交叉验证法? 交叉验证用于评估模型的预测性能,尤其是训练好的 阅读全文
posted @ 2018-01-29 20:54 stardsd 阅读(11416) 评论(0) 推荐(0) 编辑
摘要:比方说,用100k条数据,有两个思路 1. 用这100k条数据做k-fold交叉验证,来调模型参数 2. 先随机划分出70k条数据做训练集用来根据交叉验证调参数,调好之后再用剩下的30k条数据做测试集 【答】 虽然这两个都没有错对之分,但是在数据量允许的情况下,更建议第2个思路。 对于思路1,如果用 阅读全文
posted @ 2018-01-29 16:48 stardsd 阅读(7978) 评论(2) 推荐(1) 编辑
摘要:ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。 ROC曲线 需要提前 阅读全文
posted @ 2018-01-26 16:10 stardsd 阅读(10753) 评论(0) 推荐(0) 编辑
摘要:1、DBSCAN简介 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将 阅读全文
posted @ 2017-11-28 19:30 stardsd 阅读(2435) 评论(0) 推荐(1) 编辑
摘要:背景: 周末看到了一篇原公司同事的文章,讲的是关于新的互联网形势下的PACS系统。正好上一篇专栏文章也提到了有想搭建一个worklist服务器的冲动,所以就翻箱倒柜将原本学生时代做课题时搭建的简易Web PACS找了出来,借着再次搭建的机会学习一下Web PACS相关的技术,例如WADO标准、CGI 阅读全文
posted @ 2017-11-01 20:35 stardsd 阅读(3994) 评论(0) 推荐(0) 编辑
摘要:不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书,那么应该选取多少个码字呢?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样 阅读全文
posted @ 2017-10-13 19:53 stardsd 阅读(5518) 评论(0) 推荐(0) 编辑
摘要:凝聚法分层聚类中有一堆方法可以用来算两点(pair)之间的距离:欧式,欧式平方,manhattan等,还有一堆方法可以算类(cluster)与类之间的距离,什么single-linkage、complete-linkage、还有这个ward linkage。(即最短最长平均,离差平方和) 其他的好像 阅读全文
posted @ 2017-10-13 18:59 stardsd 阅读(19210) 评论(0) 推荐(1) 编辑
摘要:集成学习 基本思想:如果单个分类器表现的很好,那么为什么不适用多个分类器呢? 通过集成学习可以提高整体的泛化能力,但是这种提高是有条件的: (1)分类器之间应该有差异性; (2)每个分类器的精度必须大于0.5; 如果使用的分类器没有差异,那么集成起来的分类结果是没有变化的。如下图所示,分类器的精度p 阅读全文
posted @ 2017-10-10 20:44 stardsd 阅读(20252) 评论(0) 推荐(2) 编辑
摘要:一、层次聚类 1、层次聚类的原理及分类 1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离 阅读全文
posted @ 2017-09-17 19:07 stardsd 阅读(8541) 评论(0) 推荐(1) 编辑
摘要:ARCH模型的基本思想 ARCH模型的基本思想是指在以前信息集下,某一时刻一个噪声的发生是服从正态分布。该正态分布的均值为零,方差是一个随时间变化的量(即为条件异方差)。并且这个随时间变化的方差是过去有限项噪声值平方的线性组合(即为自回归)。这样就构成了自回归条件异方差模型。 由于需要使用到条件方差 阅读全文
posted @ 2017-09-14 20:33 stardsd 阅读(2120) 评论(0) 推荐(0) 编辑
摘要:在Apriori算法原理总结中,我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。 阅读全文
posted @ 2017-09-06 21:16 stardsd 阅读(759) 评论(0) 推荐(0) 编辑