摘要: (1)时间频度一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试,只需知道哪个算法花费的时间多,哪个算法花费的时间少就可以了。并且一个算法花费的时间与算法中语句的执行次数成正比例,哪个算法中语句执行次数多,它花费时间就多。一个算法中 阅读全文
posted @ 2019-10-31 19:57 笔记记忆 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 看了好久的KMP算法,都一直没有看明白,直到看到了这篇博客http://www.tuicool.com/articles/e2Qbyyf 让我瞬间顿悟。 如果你看不懂 KMP 算法,那就看一看这篇文章 ( 绝对原创,绝对通俗易懂 ) KMP 算法,俗称“看毛片”算法,是字符串匹配中的很强大的一个算法 阅读全文
posted @ 2019-10-31 19:56 笔记记忆 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 转自 http://www.cnblogs.com/jiewei915/archive/2010/08/09/1796042.html 哈希表是种数据结构,它可以提供快速的插入操作和查找操作。第一次接触哈希表时,它的优点多得让人难以置信。不论哈希表中有多少数据,插入和删除(有时包括侧除)只需要接近常 阅读全文
posted @ 2019-10-31 19:56 笔记记忆 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 转自 http://blog.csdn.net/jobbofhe/article/details/51426934 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。 我们这里说说八大排序就是内部排序。 阅读全文
posted @ 2019-10-31 19:54 笔记记忆 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 霍夫丁不等式与真实的机器学习 1.霍夫丁不等式 在一个罐子里,放着很多小球,他们分两种颜色{橘色,绿色}。从罐中随机抓N个小球。设:罐中橘色球的比例为μ(未知),抓出来的样本中橘色球的比例为ν(已知)。根据概率论中的霍夫丁不等式(Hoeffding’s Inequality)若N足够大,ν就很可能接 阅读全文
posted @ 2019-10-31 19:30 笔记记忆 阅读(266) 评论(0) 推荐(0) 编辑
摘要: for batch&supervised binary classfication,g≈f <=> Eout(g)≥0 achieved through Eout(g)≈Ein(g) and Ein(g)≈0 其中Ein是某一个备选函数h在数据D上犯错误的比例,在整个数据集上犯错误的比例为Eout 阅读全文
posted @ 2019-10-31 19:27 笔记记忆 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 过拟合: Overfitting就是指Ein(在训练集上的错误率)变小,Eout(在整个数据集上的错误率)变大的过程 Underfitting是指Ein和Eout都变大的过程 从上边这个图中,虚线的左侧是underfitting,右侧是overfitting,发生overfitting的主要原因是: 阅读全文
posted @ 2019-10-31 19:25 笔记记忆 阅读(238) 评论(0) 推荐(0) 编辑
摘要: Online Learning是工业界比较常用的机器学习算法,在很多场景下都能有很好的效果。本文主要介绍Online Learning的基本原理和两种常用的Online Learning算法:FTRL(Follow The Regularized Leader)[1]和BPR(Bayesian Pr 阅读全文
posted @ 2019-10-31 19:24 笔记记忆 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 转自http://www.cnblogs.com/huashiyiqike/p/3568922.html在学习算法的过程中,常常需要用到向量的求导。下边是向量的求导法则。 拉格朗日乘子法:应用在求有约束条件的函数的极值问题上。 通常我们需要求解的最优化问题有如下几类: (i) 无约束优化问题,可以写 阅读全文
posted @ 2019-10-31 19:20 笔记记忆 阅读(4395) 评论(0) 推荐(0) 编辑
摘要: 边界函数Bounding Function(成长函数的上界) 根据成长函数的定义,猜测 ——>break point K restricts maximum possible mh(N) a lot for N>k bounding functionB(N, k): maximum possible 阅读全文
posted @ 2019-10-31 19:18 笔记记忆 阅读(3107) 评论(0) 推荐(0) 编辑
摘要: (1)定义VC Dimension: dichotomies数量的上限是成长函数,成长函数的上限是边界函数: 所以VC Bound可以改写成: 下面我们定义VC Dimension: 对于某个备选函数集H,VC Dimension就是它所能shatter的最大数据个数N。VC Dimension = 阅读全文
posted @ 2019-10-31 19:17 笔记记忆 阅读(801) 评论(0) 推荐(0) 编辑
摘要: 这里主要总结Linear Regression,Linear Classification,Logistic Regression。 1.Linear Regression 线性回归的基本思想:寻找直线/平面/超平面,使得输入数据的残差最小 线性回归算法: 最终的线性回归的结果为: 其中:X+ 的求 阅读全文
posted @ 2019-10-31 19:16 笔记记忆 阅读(360) 评论(0) 推荐(0) 编辑
摘要: 错误衡量(Error Measure) 有两种错误计算方法: 第一种叫0/1错误,只要【预测≠目标】则认为犯错,通常用于分类;通常选择,错误比较大的值作为y˜的值 第二种叫平方错误,它衡量【预测与目标之间的距离】,通常用于回归。通常选择,错误均值作为y˜的值 举例说明: 还有一种错误叫做,均值错误e 阅读全文
posted @ 2019-10-31 19:15 笔记记忆 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 多分类问题:有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个而分类任务求解,最经典的拆分策略是:“一对一”,“一对多”,“多对多” (1)一对一 给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2,...,cN 阅读全文
posted @ 2019-10-31 19:14 笔记记忆 阅读(1466) 评论(0) 推荐(0) 编辑
摘要: 别人的决策树笔记:http://blog.csdn.net/sb19931201/article/details/52491430 决策树是一种最常见的分类模型,决策树是基于树结构来进行决策的,一个决策树的图如下所示 决策过程的最终结论对应了我们希望的判定结果。 决策树的基本学习算法如下: 构建树的 阅读全文
posted @ 2019-10-31 19:11 笔记记忆 阅读(1339) 评论(0) 推荐(0) 编辑
摘要: 本文链接:https://blog.csdn.net/sjkldjflakj/article/details/52016235决策树 先说下决策树吧,具体的算法什么的就不讲了,很基本的东西,网上有很多。主要总结下三种特征选择的优缺点。 ID3 基于信息增益做特征选择,所以很容易受到某一特征特征值数量 阅读全文
posted @ 2019-10-31 19:10 笔记记忆 阅读(411) 评论(0) 推荐(0) 编辑
摘要: (1)k-mean聚类 k-mean聚类比较容易理解就是一个计算距离,找中心点,计算距离,找中心点反复迭代的过程, 给定样本集D={x1,x2,...,xm},k均值算法针对聚类所得簇划分C={C1,C2,...,Ck}最小化平方误差 μi表示簇Ci的均值向量,在一定程度上刻画了簇内样本围绕均值向量 阅读全文
posted @ 2019-10-31 19:08 笔记记忆 阅读(1277) 评论(0) 推荐(0) 编辑
摘要: 特征选择方法初识: 1、为什么要做特征选择在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、特征选取的原则获取尽可能小的特征子 阅读全文
posted @ 2019-10-31 19:07 笔记记忆 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 聚类度量包括性能度量和距离计算, 性能度量 对数据集D={x1,x2,...,xm},假定通过聚类给出的策划为C={C1,C2,...,Ck},参考模型给出的簇划分为C‘={C'1,C'2,...C'k},相应的λ和λ‘分别表示C和C’对应的簇标记向量,将样本两两配对考虑, 由于每一个样本中仅能出现 阅读全文
posted @ 2019-10-31 19:05 笔记记忆 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 数据降维的目的:数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。 数据降维的好处:降维可以方便数据可视化+数据分析+数据压缩+数据提取等。 降维方法 __ 属性选择:过滤法;包装法;嵌入法; |_ 映射方法 _线性映射方法:PCA、LDA、 阅读全文
posted @ 2019-10-31 19:04 笔记记忆 阅读(684) 评论(0) 推荐(0) 编辑