摘要:
一,异常检测定义 异常检测就是训练一批正常的训练数据集,训练之后判定另一个数据\(X_{test}\)集中哪些数据是正常的 以下是异常检测的两个例子,分别是信用卡诈骗和数据中心电脑监测 1,提炼数据的特征\(X^{(i)}\) 2,从数据中训练出概率公式\(p(x)\) 3,用测试数据\(X_{te 阅读全文
摘要:
一,主成分分析法(Principal Component Analysis) 1,主成分分析法(PCA)是比较常用的数据压缩算法,把高维度数据投影到低维度平面(超平面)上,使投影误差平方最小 2,PCA与线性回归区别 在代价函数里线性回归计算的是预测值与实际值的误差(y的差值),PCA里计算的是投影 阅读全文
摘要:
一,无监督学习(Unsupervised learning) 无监督学习就是给定一系列没有标签的训练数据,找出训练数据之间的关系,最典型的就是聚类算法(Clustering Algorithm) 无监督学习的工程应用 二,K均值法(K Means Algorithm), 1,K均值法是常用聚类算法之 阅读全文
摘要:
一,支持向量机(SVM)定义 支持向量机(SVM)和逻辑回归类似,也是二元分类,但是约束条件不同,它的目标是寻找一个超平面分割数据,这个超平面一侧是分类为-1的数据,一侧是是分类是1的数据 这样的超平面有很多,支持向量机还有一个约束条件是使两侧数据到这个超平面的距离最小值最大,所以支持向量机也叫大间 阅读全文
摘要:
以设计垃圾邮件分类器为例,当我们设计机器学习算法时,先在24小时内设计出一个简单的算法,跑一遍训练数据,再根据数据的反馈结果(高偏差,高方差,或对某一类数据误判比例过高等等)调整我们的算法,反复迭代优化 一,提取特征 从大量垃圾邮件训练数据中找出出现频率最高的10,000到50,000个单词,以该单 阅读全文