随笔分类 -  机器学习

机器学习-SVD(隐语义模型)协同过滤
摘要:SVD(隐语义模型)协同过滤 隐语义模型,数学上称为SVD,奇异值分解。该算法最早在文本挖掘领域被提出,用于找到文章的隐含主题,也被称为主题模型。 隐语义模型的核心思想是通过隐含特征(Latent Factor)计算用户和物品的相似性。 SVD是将矩阵A分解成以下形式 A=U∑VT 其中U和V均为单 阅读全文

posted @ 2020-03-21 16:38 嘣嘣嚓 阅读(728) 评论(0) 推荐(0) 编辑

机器学习-二分KMeans
摘要:机器学习-二分KMeans 由于传统的KMeans算法的聚类结果容易受到初始聚类中心点选择的影响,因此在传统的KMeans算法的基础上进行算法改进,对初始中心点选取比较严格,各中心点的距离较远,这就避免了初始聚类中心会选到一个类上,一定程度上克服了算法限入局部最优状态。 二分KMeans(Bisec 阅读全文

posted @ 2020-03-19 23:04 嘣嘣嚓 阅读(424) 评论(0) 推荐(0) 编辑

机器学习-推荐系统-协同过滤(基于用户、物品的协同过滤、SVD原理及使用)
摘要:机器学习-推荐系统-协同过滤 协同过滤(Collaborative Filtering, CF) 基于协同过滤的推荐,它的原理很简单,就是根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者发现用户的相关性,然后再基于这些相关性进行推荐。基于协同过滤的推荐可以分为两个简单的子类:基于用户 阅读全文

posted @ 2020-03-15 22:24 嘣嘣嚓 阅读(1263) 评论(0) 推荐(0) 编辑

机器学习-kmeans(实现步骤、sklearn实现、python自实现、优缺点)
摘要:机器学习-kmeans KMeans(K均值)是典型的基于距离的排他划分方法:给定一个n个对象的数据集,它可以构建数据的k个划分,每个划分就是一个聚类,并且k<=n,同时还满足两个要求: 1.每个组至少包含一个对象 2.每个对象必须属于且仅属于一个组 优点: 擅长处理球状分布的数据,当结果聚类是密集 阅读全文

posted @ 2020-03-09 23:19 嘣嘣嚓 阅读(1025) 评论(3) 推荐(0) 编辑

机器学习-Scikit-Learn与回归树
摘要:回归算法原理 CART(Calssification and Regression Tree)算法是目前决策树算法中最为成熟的一类算法,应用范围也比较广泛。它即可用于分类,也可用于预测。 西方预测理论一般都是基于回归的,CART是一种通过决策树方法实现回归的算法,它有很多其他全局回归算法不具有的特性 阅读全文

posted @ 2020-03-08 22:26 嘣嘣嚓 阅读(944) 评论(0) 推荐(0) 编辑

机器学习-预测-线性系统的预测(最小二乘法、正规方程式实现)
摘要:机器学习-预测-线性系统的预测 现在预测学的核心概念:回归。从数学的角度,为事物(系统)的预测提供现代的技术方法。 回归与现代预测学 统计学上最初回归的含义由高尔顿(达尔文的表弟)通过研究父母身高与孩子身高得出。 矮个父母所生的儿子往往会比其父母更高,高个父母所生儿子的身高却回降到多数人的平均身高。 阅读全文

posted @ 2020-03-07 23:31 嘣嘣嚓 阅读(1893) 评论(0) 推荐(0) 编辑

机器学习-决策树-C4.5决策树
摘要:机器学习-决策树-C4.5决策树 针对ID3算法存在的一些问题,1993年,Quinlan将ID3算法改进为C4.5算法。该算法成功地解决了ID3算法遇到的诸多问题,发展成为机器学习的十大算法之一。 C4.5并没有改变ID3的算法逻辑,基本的程序结构仍与ID3相同,但在节点的划分标准上做了改进。C4 阅读全文

posted @ 2020-03-06 23:41 嘣嘣嚓 阅读(630) 评论(0) 推荐(0) 编辑

机器学习-决策树-ID3决策树
摘要:机器学习-决策树-ID3决策树 原理看上一篇,这篇只有代码实现 它以信息熵为度量标准,划分出决策树特征节点,每次优先选取信息量最多的属性,也就是使信息熵变为最小的属性,以构造一颗信息熵下降最快的决策树。 缺点 ID3算法的节点划分度量标准采用的是信息增益,信息增益偏向于选择特征值个数较多的特征。而取 阅读全文

posted @ 2020-03-05 23:36 嘣嘣嚓 阅读(284) 评论(0) 推荐(0) 编辑

机器学习-决策树的基本思想
摘要:机器学习-决策树的基本思想 决策树算法是最早的机器学习算法之一。 算法框架 1.决策树主函数 各种决策树的主函数都大同小异,本质上是一个递归函数。该函数的主要功能是按照某种规则生长出决策树的各个分支节点,并根据终止条件结束算法。一般来讲,主函数需要完成如下几个功能。 (1)输入需要分类的数据集和类别 阅读全文

posted @ 2020-03-05 00:20 嘣嘣嚓 阅读(1035) 评论(0) 推荐(0) 编辑

机器学习-分类算法-kNN
摘要:机器学习-分类算法-kNN kNN(k-Nearest Neighbor)算法:一种基于向量间相似度的分类算法。 kNN原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法。它采用测量不同特征之间的距离方法进行分类。 如果一个样本在特征空间中的k个最近邻(最相似)的样本 阅读全文

posted @ 2020-03-04 22:23 嘣嘣嚓 阅读(361) 评论(0) 推荐(0) 编辑

机器学习-朴素贝叶斯原理及Python实现
摘要:机器学习-朴素贝叶斯原理及Python实现 贝叶斯公式 P(A|B) = (P(B|A)P(A))/P(B) 举例:苹果10个,有2个黄色;梨10个,有6个黄色,求拿出一个黄色水果,是苹果的概率。 代入公式: P(苹果|黄色) = (P(黄色|苹果)P(苹果))/P(黄色) P(黄色) = (2+6 阅读全文

posted @ 2020-03-03 23:26 嘣嘣嚓 阅读(358) 评论(0) 推荐(0) 编辑

机器学习-文本聚类实例-kmeans
摘要:机器学习-文本聚类实例-kmeans import os import gensim import jieba from gensim.models.doc2vec import Doc2Vec from sklearn.cluster import KMeans TaggededDocument 阅读全文

posted @ 2020-03-03 21:19 嘣嘣嚓 阅读(1596) 评论(0) 推荐(0) 编辑

机器学习-文本分类实例-朴素贝叶斯
摘要:机器学习-文本分类实例-朴素贝叶斯 1.准备训练样本 使用的复旦大学文本分类样本数据 2.训练模型 3.准备测试数据 4.分类 训练模型 import os import jieba #Bunch类 from sklearn.datasets.base import Bunch import pic 阅读全文

posted @ 2020-02-27 21:28 嘣嘣嚓 阅读(851) 评论(0) 推荐(0) 编辑

机器学习-矩阵空间的变换
摘要:机器学习-矩阵空间的变换 由特征列的取值范围所有构成的矩阵空间应具有完整性,即能够反映事物的空间形式或变化规律。 向量 无论在几何还是在物理上,向量都是一个有方向、有大小的量,而向量的点坐标不过表征了该向量与坐标系原点的距离,以及与坐标系的夹角而已。 向量不是一个点,而是一个有向的线段,线段的长度是 阅读全文

posted @ 2020-02-26 21:03 嘣嘣嚓 阅读(920) 评论(0) 推荐(0) 编辑

机器学习-随机性、概率论、多元统计、特征间的相关性
摘要:机器学习-随机性、概率论、多元统计、特征间的相关性 随机性 洛伦兹动力学方程:美国气象学家洛伦兹建立了一个描述大气对流状况的数学模型。 洛伦兹动力学方程描绘出的运动轨迹具有一种奇特的形状,像一只展开了双翼的蝴蝶,所以又称为蝴蝶效应。 在这个蝴蝶上,确定性和随机性被统一在一起:一方面,运动的轨迹必然落 阅读全文

posted @ 2020-02-24 21:14 嘣嘣嚓 阅读(1050) 评论(0) 推荐(0) 编辑

机器学习-各距离定义
摘要:机器学习-各类距离的定义 两个向量之间的距离(此时向量作为n维坐标系中的点)计算,在数学上称为向量的距离(distance),也称为样本之间的相似性度量(Similarity Measurement) 它反映为某类事物在距离上接近或远离的程度。直觉上,距离越近的就越相似,越容易归为一类;距离越远就越 阅读全文

posted @ 2020-02-22 16:29 嘣嘣嚓 阅读(875) 评论(0) 推荐(0) 编辑

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示