数据挖掘 - 随笔分类(第3页) - stardsd

FP-Tree算法的实现

摘要：在关联规则挖掘领域最经典的算法法是Apriori，其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪（prune）数据集的方法以减少I/O开支，韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。名词约定举个例子，设事务数据库为： A E F G A F G A B E F G E 阅读全文

posted @ 2017-09-06 21:05 stardsd 阅读(5013) 评论(0) 推荐(0) 编辑

网格搜索（参数选择）

摘要：首先说交叉验证。交叉验证（Cross validation）是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力（generalize），能够避免过拟合问题。交叉验证一般要尽量满足： 1）训练集的比例要足够多，一般大于一半 2）训练集和测试集要均匀抽样交叉验证主要分成以下几类：阅读全文

posted @ 2017-02-25 00:50 stardsd 阅读(14999) 评论(0) 推荐(0) 编辑

fisher精确检验(fisher’s exat test)和超几何分布

摘要：阅读全文

posted @ 2017-01-12 19:47 stardsd 阅读(4314) 评论(0) 推荐(0) 编辑

基尼系数（Gini coefficient）,洛伦茨系数

摘要：20世纪初意大利经济学家基尼，于1922年提出的定量测定收入分配差异程度的指标。它是根据洛伦茨曲线找出了判断分配平等程度的指标（如下图）。设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A，实际收入分配曲线右下方的面积为B。并以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系阅读全文

posted @ 2017-01-11 19:14 stardsd 阅读(8567) 评论(0) 推荐(0) 编辑

非平衡数据机器学习

摘要：这篇文章翻译至http://www.svds.com/learning-imbalanced-classes/，作者简洁明了地阐述了非平衡数据及解决这类问题的常用方法。其实一些朴素的方法我们自己也能想到，并且也实际使用过一些，比如重采样、调整权值等。然而，我们并没有去做一些归纳。感谢作者帮我们归纳了阅读全文

posted @ 2017-01-11 15:27 stardsd 阅读(1875) 评论(0) 推荐(0) 编辑

FCM聚类算法介绍

摘要：FCM算法是一种基于划分的聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。 1 模糊集基本知识阅读全文

posted @ 2017-01-07 15:44 stardsd 阅读(64459) 评论(0) 推荐(4) 编辑

基于大数据技术的手机用户画像与征信研究

摘要：内容提要：手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措。首先，介绍了手机用户画像过程中对个人隐私保护的方法，然后分析手机用户画像的数据来源与大数据实现技术，最后，通过数据样本实例分析手机用户画像在个人征信中的应用。引言随着计算机网络技术的不断发展，“数据即资源”的大数据时代已经来阅读全文

posted @ 2017-01-04 21:04 stardsd 阅读(3642) 评论(0) 推荐(0) 编辑

归一化方法 Normalization Method

摘要：1. 概要数据预处理在众多深度学习算法中都起着重要作用，实际情况中，将数据做归一化和白化处理后，很多算法能够发挥最佳效果。然而除非对这些算法有丰富的使用经验，否则预处理的精确参数并非显而易见。 1. 概要数据预处理在众多深度学习算法中都起着重要作用，实际情况中，将数据做归一化和白化处理后，很多算阅读全文

posted @ 2017-01-04 20:09 stardsd 阅读(63302) 评论(0) 推荐(2) 编辑

OLTP（on-line transaction processing）与OLAP（On-Line Analytical Processing）

摘要：OLTP与OLAP的介绍数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银阅读全文

posted @ 2017-01-02 19:56 stardsd 阅读(1744) 评论(0) 推荐(0) 编辑

灰色关联度算法

摘要：阅读全文

posted @ 2016-12-21 21:30 stardsd 阅读(3151) 评论(0) 推荐(0) 编辑

如何理解统计学中「惩罚」的概念

摘要：作者：萧议链接：https://www.zhihu.com/question/30037293/answer/46867665 来源：知乎著作权归作者所有，转载请联系作者获得授权。惩罚的核心目的是限制参数空间的大小以降低模型复杂度，惩罚本身反应你对对应的统计问题的某种先验知识（比如回归系数当中阅读全文

posted @ 2016-12-13 21:17 stardsd 阅读(9405) 评论(0) 推荐(0) 编辑

从随机过程到马尔科夫链蒙特卡洛方法（MCMC）

摘要：从随机过程到马尔科夫链蒙特卡洛方法 1. Introduction 第一次接触到 Markov Chain Monte Carlo (MCMC) 是在 theano 的 deep learning tutorial 里面讲解到的 RBM 用到了 Gibbs sampling，当时因为要赶着做项目，虽阅读全文

posted @ 2016-12-08 13:49 stardsd 阅读(16871) 评论(2) 推荐(4) 编辑

Euler-Maruyama discretization（"欧拉-丸山"数值解法）

摘要：欧拉法的来源在数学和计算机科学中，欧拉方法（Euler method）命名自它的发明者莱昂哈德·欧拉，是一种一阶数值方法，用以对给定初值的常微分方程(即初值问题)求解。它是一种解决常微分方程数值积分的最基本的一类显型方法(Explicit method)。 [编辑] 什么是欧拉法什么是欧拉法欧阅读全文

posted @ 2016-12-08 13:44 stardsd 阅读(7626) 评论(0) 推荐(2) 编辑

通俗理解卷积神经网络

摘要：（cs231n与5月dl班课程笔记） 1 前言 2012年我在北京组织过8期machine learning读书会，那时“机器学习”非常火，很多人都对其抱有巨大的热情。当我2013年再次来到北京时，有一个词似乎比“机器学习”更火，那就是“深度学习”。本博客内写过一些机器学习相关的文章，但上一篇技术阅读全文

posted @ 2016-12-02 00:04 stardsd 阅读(1821) 评论(2) 推荐(0) 编辑

数据集偏斜 - class skew problem - 以SVM松弛变量为例

摘要：原文接下来要说的东西其实不是松弛变量本身，但由于是为了使用松弛变量才引入的，因此放在这里也算合适，那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题：注意其中C的位置，也可以回想一下C所起的作用（表征你有多么重视离群点，C越大越重视，越不想丢掉它们）。这个式子是以前做SVM的人写的，大家也阅读全文

posted @ 2016-12-01 11:48 stardsd 阅读(1832) 评论(0) 推荐(0) 编辑

用信息值进行特征选择(Information Value)

摘要：Posted by c cm on January 3, 2014 特征选择（feature selection）或者变量选择(variable selection)是在建模之前的重要一步。数据接口越来越多的今后，数据集的原始变量、衍生变量会越来越多，如何从中选取subset适用到模型之上在实际数据阅读全文

posted @ 2016-11-29 16:05 stardsd 阅读(1676) 评论(0) 推荐(0) 编辑

minHash最小哈希原理

摘要：minHash最小哈希原理收藏初雪之音发表于 9个月前阅读 208 收藏 9 点赞 1 评论 0 收藏收藏初雪之音发表于 9个月前阅读 208 收藏 9 点赞 1 评论 0 初雪之音初雪之音发表于 9个月前阅读 208 收藏 9 点赞 1 评论 0 发表于 9个月前阅读 20 阅读全文

posted @ 2016-11-28 18:21 stardsd 阅读(30317) 评论(0) 推荐(1) 编辑

赏月斋

慎终如始宁静致远

随笔分类 - 数据挖掘

公告

赏月斋

慎终如始 宁静致远

随笔分类 - 数据挖掘

公告

慎终如始宁静致远