随笔分类 - 机器学习(Python)
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.13-kernel-density-estimation.html 密度评估器是一种利用D维数据集生成D维概率分布估计的算法,GMM算法用不同高斯分布的加权汇总来表示概率分布估
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.12-gaussian-mixtures.html 1、高斯混合模型(GMM)为什么会出现:k-means算法的缺陷 某些点的归属簇比其他点的归属簇更加明确,比如中间的两个簇似
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.11-k-means.html 聚类算法直接从数据的内在性质中学习最优的划分结果或者确定离散标签类型。 1、k-means简介 k-means算法在不带标签的多维数据集中寻找确
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.10-manifold-learning.html 流形学习是一种无监督评估器,它试图将一个低维度流形嵌入到一个高维度空间来描述数据集。 1、流形学习:‘HELLO’ 2、多维
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.09-principal-component-analysis.html 主成分分析(principal component analysis,PCA),无监督算法之一,PCA
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.08-random-forests.html 无参数算法随机森林,是一种集成方法,通过集成多个比较简单的评估器形成累计效果,即若干评估器的多数投票(majority vote)
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.07-support-vector-machines.html 支持向量机(support vector machine,SVM)是非常强大、灵活的有监督学习算法,既可以用于分
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.06-linear-regression.html 1、简单线性回归 最广为人知的线性模型——将数据拟合成一条直线。 直线拟合的模型方程为y=ax+b,其中a是直线斜率,b是直
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.05-naive-bayes.html 朴素贝叶斯模型是一组非常简单快速的分类算法,通常适用于维度非常高的数据集。 因为运行速度快,而且可调参数少,因此非常适合为分类问题提供快
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.04-feature-engineering.html 特征工程(feature engineering)———找到与问题有关的任何信息,把它们转换成特征矩阵的数值 1、分类特
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/05.03-hyperparameters-and-model-validation.html 1、什么是模型验证 模型验证(model validation),即在选择模型和超参数
阅读全文
摘要:参考url: https://jakevdp.github.io/PythonDataScienceHandbook/index.html Scikit-Learn为各种常用机器学习算法提供了高效版本,因其干净、统一、管道命令式的API而独具特色,且其在线文档实用、完整。 1、Scikit-Lear
阅读全文
摘要:内容来源: https://jakevdp.github.io/PythonDataScienceHandbook/00.00-preface.html 1、什么是机器学习 机器学习是用数据科学的计算能力和算法能力去弥补统计方法的不足,其最终结果是为那些目前既没有高效的理论支持、又没有高效的计算方法
阅读全文