06 2019 档案
摘要:推荐系统(Recommender Systems) 大数据流动 专注于大数据实时计算,数据治理,数据可视化等技术分享与实践。 请在后台回复关键字下载相关资料。相关学习交流群已经成立,欢迎加入~
阅读全文
摘要:异常检测(Anomaly Detection) 给定数据集 𝑥(1),𝑥(2),..,𝑥(𝑚),我们假使数据集是正常的,我们希望知道新的数据 𝑥𝑡𝑒𝑠𝑡 是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据 该测试数据的位置告诉我们其属于一组数据的可能性
阅读全文
摘要:降维(Dimensionality Reduction) 降维的目的:1 数据压缩 这个是二维降一维 三维降二维就是落在一个平面上。 2 数据可视化 降维的算法只负责减少维数,新产生的特征的意义就必须由我们自 己去发现了。 主成分分析(PCA)是最常见的降维算法。 在 PCA 中,我们要做的是找到一
阅读全文
摘要:无监督学习 没有标签 聚类(Clustering) 图上的数据看起来可以分成两个分开的点集(称为簇),这就是为聚类算法。 此后我们还将提到其他类型的非监督学习算法,它们可以为我们找到其他类型的结构或者其他的一些模式,而不只是簇。 K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类
阅读全文
摘要:与逻辑回归和神经网络相比,支持向量机或者简称 SVM,更为强大。 人们有时将支持向量机看作是大间距分类器。 这是我的支持向量机模型代价函数 这样将得到一个更好的决策边界 理解支持向量机模型的做法,即努力将正样本和负用最大间距分开。 实际上应用支持向量机的时候, 当𝐶不是非常大的时候, 它可以忽略掉
阅读全文
摘要:获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效,可考虑 先采用下面的几种方法。 1.尝试减少特征的数量 2.尝试获得更多的特征 3.尝试增加多项式特征 4.尝试减少正则化程度𝜇 我们需要使用交叉 验证集来帮助选择模型。 即:使用 60%的数据作为训练集,使用 20%的数据作为
阅读全文