2020 年 11月 16 日随笔档案 - lotuslaw

2020年11月16日

摘要： PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。阅读全文

posted @ 2020-11-16 23:37 lotuslaw 阅读(82) 评论(0) 推荐(0) 编辑

摘要： DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。阅读全文

posted @ 2020-11-16 20:35 lotuslaw 阅读(113) 评论(0) 推荐(0) 编辑

16-K-means聚类

摘要： K-means的算法思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的联系在一起，而让簇间的距离尽量的大。阅读全文

posted @ 2020-11-16 19:20 lotuslaw 阅读(80) 评论(0) 推荐(0) 编辑

15-TF-IDF

摘要： TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，TF和IDF。阅读全文

posted @ 2020-11-16 16:55 lotuslaw 阅读(57) 评论(0) 推荐(0) 编辑

14-支持向量机SVM

摘要： SVM算法是一个很优秀的算法，在集成学习和神经网络之类的算法没有表现出优越性能前，SVM基本占据了分类模型的统治地位。目前则是在大数据时代的大样本背景下,SVM由于其在大样本时超级大的计算量，热度有所下降，但是仍然是一个常用的机器学习算法。阅读全文

posted @ 2020-11-16 14:49 lotuslaw 阅读(68) 评论(0) 推荐(0) 编辑

13-感知机原理概述

摘要：感知机算法是一个简单易懂的算法。它是很多算法的鼻祖，比如支持向量机算法，神经网络与深度学习。阅读全文

posted @ 2020-11-16 11:04 lotuslaw 阅读(154) 评论(0) 推荐(0) 编辑

12-随机森林

摘要：随机森林是bagging的一个特化进阶版，所谓的特化是因为随机森林的弱学习器都是决策树。所谓的进阶是随机森林在bagging的样本随机采样基础上，又加上了特征的随机选择，其基本思想没有脱离bagging的范畴。阅读全文

posted @ 2020-11-16 10:04 lotuslaw 阅读(70) 评论(0) 推荐(0) 编辑

11-集成学习原理概述

摘要：集成学习本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等，可以说所有的机器学习领域都可以看到集成学习的身影。阅读全文

posted @ 2020-11-16 09:20 lotuslaw 阅读(78) 评论(0) 推荐(0) 编辑

Loading

lotuslaw

公告