08 2014 档案

摘要:(原创文章,转载请注明出处!)一、主成分分析的作用主成分分析(PCA)是通过一些方法将高维的训练数据映射到低维,起到一个训练数据降维的作用。这样一方面能消除训练数据中冗余特征,另一方面能提升训练算法的运行效率,还能减少对存储资源的占用;如果是降维到2D或者3D,还能用2D、3D的展示技术将数据显示出... 阅读全文
posted @ 2014-08-16 09:51 activeshj 阅读(1329) 评论(0) 推荐(0) 编辑
摘要:Singular Value Decompositionhttp://blog.csdn.net/wangzhiqing3/article/details/7446444http://blog.csdn.net/ningyaliuhebei/article/details/7104951http:/... 阅读全文
posted @ 2014-08-16 09:51 activeshj 编辑
摘要:(原创文章,转载请注明出处!)(0-1)分布P{X=k}=pk(1-p)1-k,k=0,1 (00是常数期望值是λ, 方差也是λ数学期望离散:E(X) = Σ 1∞(xkpk)连续:E(X) = ∫-∞∞ xf(x) dx方差D(X) = E{[X-E(X)]2}, sqrt(D(X)) 称为标准差... 阅读全文
posted @ 2014-08-08 22:31 activeshj 阅读(420) 评论(0) 推荐(0) 编辑
摘要:(原创文章,转载请注明出处!)用样本数据来估计分布函数未知参数的问题,称为参数的点估计问题。一、矩估计样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。由辛钦定理知道,样本矩依概率收敛到总体矩,而以样本矩为参数的连续函数依概率收敛到以相应总体矩为参数的连续函数。... 阅读全文
posted @ 2014-08-08 22:29 activeshj 阅读(410) 评论(0) 推荐(0) 编辑
摘要:(原创文章,转载请注明出处!)用logistic回归来解决分类问题。模型的值域是[0,1],用0.5作为分类的阈值。模型的输出是:P(y=1|x;θ),即:对给定的输入x,和确定的参数θ,事件“y=1”的概率。那么可以选择sigmoid函数: 1/(1+e-z) ,z∈R,值域为[0,1],在log... 阅读全文
posted @ 2014-08-07 22:36 activeshj 阅读(1181) 评论(0) 推荐(0) 编辑
摘要:(原创文章,转载请注明出处!)如何给用户自动的推荐产品?比如推荐书。让用户给他看过的书打分,比如: 0、1、2、3、4、5分。用户可以有很多个,书也可以有很多本不同的。用户给书打分就形成了一个二维表格:用户A用户B用户C用户D用户E小说151442小说24144?小说3??5?1小说43??2?小说... 阅读全文
posted @ 2014-08-07 21:59 activeshj 阅读(208) 评论(0) 推荐(0) 编辑
摘要:(原创文章,转载请注明出处!)一、朴素贝叶斯模型模型一:将一个文本文档使用一个词的向量来表示。通常文档中出现的词的个数是有限的,假设要将文档分成两类(类别0、1),分类的所有文档可能出现100个词(词典中词的个数,在实际应用中,选择训练文档中出现次数最多的n个词,n从10000到50000),那么一... 阅读全文
posted @ 2014-08-07 21:53 activeshj 阅读(567) 评论(0) 推荐(0) 编辑
摘要:(原创文章,转载请注明出处!)一、插入排序要点就是保持扫描过的元素是有序的,使之成为一个有序的元素序列(升序或降序)每次取一个新的元素,扫描已排序的元素序列,找到其合适的位置,将新元素插入。实例:打扑克时,揭牌保持扑克牌的顺序。时间复杂度:O(N2)算法的实现:使用能缓存一个元素的辅助存储空间。从0... 阅读全文
posted @ 2014-08-07 21:51 activeshj 阅读(166) 评论(0) 推荐(0) 编辑
摘要:(原创文章,转载请注明出处!)范数(Norm)映射||•|| :Rn→R称为Rn上的半范数,当且仅当:(1) ||x|| ≥ 0,∀x∈Rn(2) ||αx|| = |α| ||x||,∀α∈R, x∈Rn(3) ||x + y|| ≤ ||x|| + ||y||,∀x,y∈Rn如果映射还满足:(4... 阅读全文
posted @ 2014-08-07 21:46 activeshj 阅读(277) 评论(0) 推荐(0) 编辑
摘要:(原创文章,转载请注明出处!)一、K均值聚类算法K均值聚类的训练数据是向量,假设样本点是三维向量,它们没有类别标示。所以,第一步: 要确定聚类中心的个数,比如:3个;然后初始化聚类中心,比如:μ1、μ2、μ3。第二步: 计算训练数据中的每一个样本点到分别到这三个聚类中心的距离||x-μ1||2, 对... 阅读全文
posted @ 2014-08-07 21:33 activeshj 阅读(986) 评论(0) 推荐(0) 编辑