Fork me on GitHub

随笔分类 -  数据挖掘

摘要:在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。 名词约定 举个例子,设事务数据库为: A E F G A F G A B E F G E 阅读全文
posted @ 2017-09-06 21:05 stardsd 阅读(4986) 评论(0) 推荐(0) 编辑
摘要:首先说交叉验证。 交叉验证(Cross validation)是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize), 能够避免过拟合问题。 交叉验证一般要尽量满足: 1)训练集的比例要足够多,一般大于一半 2)训练集和测试集要均匀抽样 交叉验证主要分成以下几类: 阅读全文
posted @ 2017-02-25 00:50 stardsd 阅读(14990) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-01-12 19:47 stardsd 阅读(4285) 评论(0) 推荐(0) 编辑
摘要:20世纪初意大利经济学家基尼,于1922年提出的定量测定收入分配差异程度的指标。它是根据洛伦茨曲线找出了判断分配平等程度的指标(如下图)。 设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。并以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系 阅读全文
posted @ 2017-01-11 19:14 stardsd 阅读(8390) 评论(0) 推荐(0) 编辑
摘要:这篇文章翻译至http://www.svds.com/learning-imbalanced-classes/,作者简洁明了地阐述了非平衡数据及解决这类问题的常用方法。其实一些朴素的方法我们自己也能想到,并且也实际使用过一些,比如重采样、调整权值等。然而,我们并没有去做一些归纳。感谢作者帮我们归纳了 阅读全文
posted @ 2017-01-11 15:27 stardsd 阅读(1852) 评论(0) 推荐(0) 编辑
摘要:FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。 1 模糊集基本知识 阅读全文
posted @ 2017-01-07 15:44 stardsd 阅读(64360) 评论(0) 推荐(4) 编辑
摘要:内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措。首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用。 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来 阅读全文
posted @ 2017-01-04 21:04 stardsd 阅读(3629) 评论(0) 推荐(0) 编辑
摘要:1. 概要 数据预处理在众多深度学习算法中都起着重要作用,实际情况中,将数据做归一化和白化处理后,很多算法能够发挥最佳效果。然而除非对这些算法有丰富的使用经验,否则预处理的精确参数并非显而易见。 1. 概要 数据预处理在众多深度学习算法中都起着重要作用,实际情况中,将数据做归一化和白化处理后,很多算 阅读全文
posted @ 2017-01-04 20:09 stardsd 阅读(63080) 评论(0) 推荐(2) 编辑
摘要:OLTP与OLAP的介绍 数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银 阅读全文
posted @ 2017-01-02 19:56 stardsd 阅读(1718) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-12-21 21:30 stardsd 阅读(3150) 评论(0) 推荐(0) 编辑
摘要:作者:萧议 链接:https://www.zhihu.com/question/30037293/answer/46867665 来源:知乎 著作权归作者所有,转载请联系作者获得授权。 惩罚的核心目的是限制参数空间的大小以降低模型复杂度,惩罚本身反应你对对应的统计问题的某种先验知识(比如回归系数当中 阅读全文
posted @ 2016-12-13 21:17 stardsd 阅读(9304) 评论(0) 推荐(0) 编辑
摘要:从随机过程到马尔科夫链蒙特卡洛方法 1. Introduction 第一次接触到 Markov Chain Monte Carlo (MCMC) 是在 theano 的 deep learning tutorial 里面讲解到的 RBM 用到了 Gibbs sampling,当时因为要赶着做项目,虽 阅读全文
posted @ 2016-12-08 13:49 stardsd 阅读(16834) 评论(2) 推荐(3) 编辑
摘要:欧拉法的来源 在数学和计算机科学中,欧拉方法(Euler method)命名自它的发明者莱昂哈德·欧拉,是一种一阶数值方法,用以对给定初值的常微分方程(即初值问题)求解。它是一种解决常微分方程数值积分的最基本的一类显型方法(Explicit method)。 [编辑] 什么是欧拉法 什么是欧拉法 欧 阅读全文
posted @ 2016-12-08 13:44 stardsd 阅读(7206) 评论(0) 推荐(2) 编辑
摘要:(cs231n与5月dl班课程笔记) 1 前言 2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。 本博客内写过一些机器学习相关的文章,但上一篇技术 阅读全文
posted @ 2016-12-02 00:04 stardsd 阅读(1801) 评论(2) 推荐(0) 编辑
摘要:原文 接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题: 注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢掉它们)。这个式子是以前做SVM的人写的,大家也 阅读全文
posted @ 2016-12-01 11:48 stardsd 阅读(1823) 评论(0) 推荐(0) 编辑
摘要:Posted by c cm on January 3, 2014 特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步。数据接口越来越多的今后,数据集的原始变量、衍生变量会越来越多,如何从中选取subset适用到模型之上在实际数据 阅读全文
posted @ 2016-11-29 16:05 stardsd 阅读(1657) 评论(0) 推荐(0) 编辑
摘要:minHash最小哈希原理 收藏 初雪之音 发表于 9个月前 阅读 208 收藏 9 点赞 1 评论 0 收藏 收藏 初雪之音 发表于 9个月前 阅读 208 收藏 9 点赞 1 评论 0 初雪之音 初雪之音 发表于 9个月前 阅读 208 收藏 9 点赞 1 评论 0 发表于 9个月前 阅读 20 阅读全文
posted @ 2016-11-28 18:21 stardsd 阅读(29941) 评论(0) 推荐(1) 编辑