摘要: 目录大数定律中心极限定理置信区间峰度、偏度检验箱线图单分布卡方拟合检验大数定律 返回目录弱大数定律(辛钦大数定律):设$X_{1},X_{2},\cdots$是相互独立,服从同一分布的随机变量序列,且具有数学期望$E(X_{k})=\mu(k=1,2,\cdots)$,作前 $n$ 个变量的算术平均... 阅读全文
posted @ 2016-01-01 00:25 90Zeng 阅读(4133) 评论(0) 推荐(2) 编辑
摘要: 在编写程序的时候,经常需要在程序开始写上程序的简要介绍和作者信息,如下:这种信息,除了文件名和修改时间可能经常发生变化外,其他基本不变,可以在程序开始自动加入,方法就是在家目录下的.vimrc中写入:map :call TitleDet()function AddTitle() call a... 阅读全文
posted @ 2015-12-12 20:03 90Zeng 阅读(3442) 评论(1) 推荐(3) 编辑
摘要: 目录1.shell脚本的执行方法 2.shell的变量类型 3.shell特殊变量4.变量子串的常用操作 5.批量修改文件名实践 6.变量替换7.在shell中计算字符串长度的方法 8.变量的数值计算:(()) 的用法9.变量的数值计算:let的用法 10.变量的数值计算:expr的用... 阅读全文
posted @ 2015-12-06 10:41 90Zeng 阅读(18652) 评论(0) 推荐(10) 编辑
摘要: 目录:1.关联分析2. Apriori 原理3. 使用 Apriori 算法来发现频繁集4.从频繁集中挖掘关联规则5. 总结1.关联分析 返回目录关联分析是一种在大规模数据集中寻找有趣关系的任务。这种关系表现为两种形式:1.频繁项集(frequency item sets):经常同时出现的一些元素的... 阅读全文
posted @ 2015-11-28 21:00 90Zeng 阅读(30348) 评论(6) 推荐(16) 编辑
摘要: 目录:1. Boosting方法的简介2. AdaBoost算法3.基于单层决策树构建弱分类器4.完整的AdaBoost的算法实现5.总结1. Boosting方法的简介 返回目录Boosting方法的基本思想:对于一个复杂的任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家... 阅读全文
posted @ 2015-11-17 20:54 90Zeng 阅读(8782) 评论(1) 推荐(2) 编辑
摘要: 在写大型程序时候的一大挑战是如何保证最少的内存使用率。但是在Python中的内存管理是比较简单的。Python显示分配内存,使用引用计数系统管理对象,当指向某一个对象的引用数变为 0 的时候,该对象所占的内存就会被释放。理论上听起来很不错,也很简单,但是在实践中,我们需要知道一些Python内存管理... 阅读全文
posted @ 2015-05-08 10:48 90Zeng 阅读(3835) 评论(16) 推荐(2) 编辑
摘要: 1.自动编码器自动编码器首先通过下面的映射,把输入$x\in[0,1]^{d}$映射到一个隐层$y\in[0,1]^{d^{'}}$(编码器):$y=s(Wx+b)$其中 $s$ 是非线性的函数,例如sigmoid. 隐层表示 $y$ ,即编码然后被映射回(通过解码器)一个重构的 $z$,形状与输入... 阅读全文
posted @ 2015-04-29 11:33 90Zeng 阅读(3153) 评论(2) 推荐(0) 编辑
摘要: 1.引言卷积神经网络(Convolutional Neural Networks , CNN)受到视网膜上的细胞只对视野范围内的部分区域敏感,这一部分区域称为感受域(receptive field).卷积神经网络正是采用了这种机制,每一个神经元只与一部分输入相连接。2.稀疏连接CNNs通过局部连接的... 阅读全文
posted @ 2015-04-28 01:25 90Zeng 阅读(4260) 评论(0) 推荐(1) 编辑
摘要: 1.引言矩阵分解(Matrix Factorization, MF)是传统推荐系统最为经典的算法,思想来源于数学中的奇异值分解(SVD), 但是与SVD 还是有些不同,形式就可以看出SVD将原始的评分矩阵分解为3个矩阵,而推荐本文要介绍的MF是直接将一个矩阵分解为两个矩阵,一个包含Users 的因子... 阅读全文
posted @ 2014-12-25 10:33 90Zeng 阅读(5186) 评论(2) 推荐(6) 编辑
摘要: 1.引言假如你经营着一家网店,里面卖各种商品(Items),有很多用户在你的店里面买过东西,并对买过的Items进行了评分,我们称之为历史信息,现在为了提高销售量,必须主动向用户推销产品,所以关键是要判断出用户除了已经买过的商品之外还会喜欢哪些商品,这就需要利用用户购买商品过程产生的历史信息。协同过... 阅读全文
posted @ 2014-12-24 20:06 90Zeng 阅读(7809) 评论(7) 推荐(5) 编辑
摘要: 1. 关于ID3和C4.5的原理介绍这里不赘述,网上到处都是,可以下载讲义c9641_c001.pdf或者参考李航的《统计学习方法》.2. 数据与数据处理本文采用下面的训练数据:数据处理:本文只采用了"Outlook", "Humidity", "Windy"三个属性,然后根据Humidity的值是... 阅读全文
posted @ 2014-11-26 12:33 90Zeng 阅读(4937) 评论(2) 推荐(3) 编辑
摘要: 在因子分析(Factor analysis)中,介绍了一种降维概率模型,用EM算法(EM算法原理详解)估计参数。在这里讨论另外一种降维方法:主元分析法(PCA),这种算法更加直接,只需要进行特征向量的计算,不需要用到EM算法。 假设数据集表示 m 个不同类型汽车的属性,比如最大速度,转弯半径等... 阅读全文
posted @ 2014-11-22 15:16 90Zeng 阅读(3356) 评论(0) 推荐(2) 编辑
摘要: 给定训练集$\{x^{(1)},...,x^{(m)}\}$,想把这些样本分成不同的子集,即聚类,$x^{(i)}\in\mathbb{R^{n}}$,但是这是个无标签数据集,也就是说我们再聚类的时候不能利用标签信息,所以这是一个无监督学习问题。k-means聚类算法的流程如下:1. 随机初始化聚类... 阅读全文
posted @ 2014-10-28 18:31 90Zeng 阅读(18874) 评论(2) 推荐(5) 编辑
摘要: 基于自动编码机(autoencoder),这里网络的层次结构为一个输入层,两个隐层,后面再跟着一个softmax分类器:采用贪婪算法,首先把input和feature1看作一个自动编码机,训练出二者之间的参数,然后用feature1层的激活值作为输出,输入到feature2,即把feature1和f... 阅读全文
posted @ 2014-10-23 10:45 90Zeng 阅读(5617) 评论(0) 推荐(3) 编辑
摘要: 部署三个节点的hadoop集群,并进行验证。 阅读全文
posted @ 2014-08-15 19:49 90Zeng 阅读(5281) 评论(4) 推荐(1) 编辑
摘要: 1.KNN原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中最相似数据(最近邻)的分类标签。一般来说,只选择样本数据集中前 $... 阅读全文
posted @ 2015-11-06 22:07 90Zeng 阅读(10254) 评论(0) 推荐(1) 编辑
摘要: 通过一小段程序阐述C++中构造函数和析构函数的调用顺序 阅读全文
posted @ 2015-09-03 12:32 90Zeng 阅读(3692) 评论(0) 推荐(0) 编辑
摘要: 1.有道的翻译网页:www.youdao.comFig1Fig2Fig3Fig4再次点击"自动翻译"->选中'Network'->选中'第一项',如下:Fig5然后显示出如下内容,红框画出的部分是等会编写代码需要的地方:Fig6Fig7再看看翻译的结果:Fig82.python实现英译汉:原理:把需... 阅读全文
posted @ 2015-05-04 00:17 90Zeng 阅读(10170) 评论(8) 推荐(4) 编辑