随笔 - 433  文章 - 0 评论 - 2 阅读 - 26万

随笔分类 -  机器学习

1 2 下一页
机器学习,模型(三)PageRank
摘要:1.PageRank (1)一个无监督算法:Page Rank,做搜索引擎,大数据处理 (2)基于:引用分析 (3)基本思想: ①一种链接分析算法 对超链文档集合的每个文档指定一个数值权重(numerical weighting) 以度量该文档在集合中的相对重要度 ②对网页排序: 仅仅通过Web的拓 阅读全文
posted @ 2020-09-14 19:23 西伯尔 阅读(190) 评论(0) 推荐(0) 编辑
机器学习,评估——风险函数
摘要:1.损失函数vs风险函数 损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。 2.风险函数定义 风险函数(risk function)=期望风险(expected Risk)=期望损失(expected loss),可以认为是平均意义下的损失。 例如:下面的对数损失函数中,损失函 阅读全文
posted @ 2020-09-11 20:18 西伯尔 阅读(3985) 评论(0) 推荐(0) 编辑
机器学习概念区分(一)性能度量 vs 损失函数
摘要:1.机器学习的三要素就是:表示,评估和优化。 (1)表示: 将样本空间映射到一个合适的特征空间,一般地,我们更青睐于这样的表示是低维度的,是更加稀疏交互的,同时也希望是相互独立的。【从大量特征挑出好的特征,降维】 让机器来学习怎样表示,就是表示学习。 (2)评估: 模型在数据上表现的量化形式,我们选 阅读全文
posted @ 2020-08-05 20:50 西伯尔 阅读(1191) 评论(0) 推荐(0) 编辑
机器学习,优化——常用优化算法
摘要:先定义什么是优化,优化是求损失最小值情况下的参数。这里的调参不包括超参数,超参数怎么调可以参考。 1.梯度下降算法 小批量随机梯度下降(mini-batch stochastic gradient descent)在深度学习中被广泛使用。 它的算法很简单: 先选取一组模型参数的初始值,如随机选取; 阅读全文
posted @ 2020-08-05 19:58 西伯尔 阅读(174) 评论(0) 推荐(0) 编辑
机器学习,评估——损失函数
摘要:概念区分 性能度量vs损失函数 损失函数、代价函数与目标函数 损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差,度量模型一次预测的好坏。代价函数(Cost Function)=成本函数=经验风险:是定义在整个训练集上的,是所有样本误差的平均,也就是所有损失函数值的平均 阅读全文
posted @ 2020-08-05 19:18 西伯尔 阅读(2601) 评论(0) 推荐(0) 编辑
机器学习,模型——SVM
摘要:1.思想 该分类器的基本策略是保证不同类别的数据具有最大的分类间隔。 2.特点+适用条件 由于这类求间隔最大化的问题往往可以转化为凸二次规划问题, 因此与神经网络、随机森林和决策树等工具相比,SVM 可以在数据量较少的情况下快速得到需要的分类器,这一特性降低了数据积累的要求,同时减少了人工设置标签的 阅读全文
posted @ 2020-07-17 14:57 西伯尔 阅读(177) 评论(0) 推荐(0) 编辑
机器学习面试题
摘要:1.哪些机器学习算法不需要做归一化处理? 概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率, 如决策树、RF。 而像Adaboost、GBDT、XGBoost、SVM、LR、KNN、KMeans之类的最优化问题就需要归一化。 2. 为什么XGBoost要用泰勒展开 阅读全文
posted @ 2020-07-16 22:41 西伯尔 阅读(175) 评论(0) 推荐(0) 编辑
机器学习,数据——数据集不平衡处理
摘要:一、概述 1.处理方法总结 (1)不平衡数据集 通常情况下通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。 (2)不平衡数据集的处理方法主要分为两个方面 1、从数据的角度出发,主要方法为采样,分为欠采样和过采样以 阅读全文
posted @ 2020-07-16 21:35 西伯尔 阅读(1865) 评论(0) 推荐(0) 编辑
机器学习,优化——如何找到最优学习率
摘要:1.找到最优学习率的方法 (1)笨方法——指数提高学习率 从0.0001开始尝试,然后用0.001,每个量级的学习率都去跑一下网络,然后观察一下loss的情况,选择一个相对合理的学习率,但是这种方法太耗时间了。 (2)简单的启发方法【有时间总结】 参考:https://arxiv.org/pdf/1 阅读全文
posted @ 2020-06-15 09:31 西伯尔 阅读(1751) 评论(0) 推荐(0) 编辑
机器学习,模型——六个概率图模型
摘要:1.朴素贝叶斯模型(Naive Bayes,NB) 2.最大熵模型(Maximum Entropy Model,MaxEnt 或 MEM) (1)证明Logistic(Softmax)=MaxEnt (2)多项式分布&指数族分布 ①多项分布: ②指数族分布有:高斯/正态分布(Gaussian)、泊松 阅读全文
posted @ 2020-05-22 21:45 西伯尔 阅读(808) 评论(0) 推荐(0) 编辑
深度学习——(一)基本概念
摘要:1.导论 (1)深度学习按照成熟度分类 ①成熟的深度学习算法: 深度前馈网络(deep feedforward network),也叫 前馈神经网络(feedforward neural network)或 多层感知机(multilayer perceptron, MLP),是典型的深度学习模型。 阅读全文
posted @ 2020-05-11 06:40 西伯尔 阅读(276) 评论(0) 推荐(0) 编辑
机器学习,评估——模型评估
摘要:模型评估包括模型准确性评估和模型泛化性能评估。 一、模型准确性 1.两种评价标准 我们以Y={y1,y2,...,yn}Y={y1,y2,...,yn}表示真实的数据,以Y^={y^1,y^2,...,y^n}Y^={y^1,y^2,...,y^n}表示预测出来的数据。 (1)最小错误率(最大准确率 阅读全文
posted @ 2020-05-10 19:13 西伯尔 阅读(766) 评论(0) 推荐(0) 编辑
人工智能会议
摘要:1.The First Class(tier-1) IJCAI (1+):1.82 (top 4.09 %) ,AI最好的综合性会议 AAAI (1):1.49 (top 9.17%),偶数年里因为没有IJCAI, 它就是最好的AI综合性会议, 但因为号召力毕竟比IJCAI要小一些, 特别是欧洲人捧 阅读全文
posted @ 2020-05-10 16:33 西伯尔 阅读(250) 评论(0) 推荐(0) 编辑
CV——Recognition图像识别
摘要:1.图像识别概述 (1)图像识别是计算机视觉中最基础的一项任务,目的是在图像或视频序列中找到给定的物体,或者是对场景的属性进行判断。 (2)要对图像中的物体进行识别,首先需要对物体赋予合适的表示,使得物体表示对于图像变化(视角、光照、遮挡、尺度、形变、物体聚集等)有较强的不变性。 (3)图像和目标识 阅读全文
posted @ 2020-04-28 18:57 西伯尔 阅读(1484) 评论(0) 推荐(0) 编辑
人工智能的崛起——三大主义
摘要:1.符号主义:人工智能源于数理逻辑 智能主要是知识表示、逻辑推理和知识运用,重在表示和推理 认知和思维的基本单元是符号 逻辑演绎描述智能行为 2.行为主义:人工智能源于控制 智能取决于感知和动作,重在外在交互,可学习、进化 模拟生物智能行为 建立感知 - 决策的控制系统 3.连结主义:源于人脑模型 阅读全文
posted @ 2020-04-26 10:42 西伯尔 阅读(1350) 评论(0) 推荐(0) 编辑
机器学习——导论
摘要:1.机器学习的主要分类 (1)监督学习(Supervised learning)  训练数据有目标向量(标签)  分类、回归 … (2)非监督学习(Unsupervised learning)  训练数据没有目标向量(标签)  聚类、密度估计、可视化 … (3)强化学习(Reinforcem 阅读全文
posted @ 2020-04-26 10:17 西伯尔 阅读(197) 评论(0) 推荐(0) 编辑
机器学习,模型——生成模型(generative model)和判别模型(Discriminative model)
摘要:1.生成模型与判别模型区别 生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布。能够学习到数据生成的机制。 判别模型:学习得到条件概率分布P(y|x),即在特征x出现的情况下标记y出现的概率。 数据要求:生成模型需要的数据量比较大,能够较好地估计概率密度; 阅读全文
posted @ 2020-04-24 12:00 西伯尔 阅读(1250) 评论(0) 推荐(0) 编辑
机器学习,评估——熵(交叉熵)
摘要:1.信息熵 ①H(x) = - ∑ p(xi) log p(xi) ②熵是不确定性的度量,越不确定,越混乱,熵越大。 ③越平均的时候,熵越大。 2.交叉熵 ①两个概率分布p(x)和q(x),p分布已知,q未知,交叉熵函数就是两个分布的互信息,反应其相关程度,交叉熵越小越相关,两个分布越接近,分类器效 阅读全文
posted @ 2020-04-08 19:21 西伯尔 阅读(1191) 评论(0) 推荐(0) 编辑
机器学习,评估——softmax
摘要:1.softmax函数 softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,进行归一化,转化成概率的形式。 假设我们有一个数组 V,Vi表示V中的第i个元素,那么这个元素的softmax值就是: 例如:下图中,yi = y(zi) = e^zi / ∑ e^zj 2.sof 阅读全文
posted @ 2020-03-26 15:52 西伯尔 阅读(389) 评论(0) 推荐(0) 编辑
《西瓜书》问题集锦
摘要:1.【1.3假设空间,p5】 设空间由 (色泽=?)∩(根蒂=?)∩(敲声=?) 的可能取值形成的假设组成,"色泽" "根蒂" "敲声"分别有3、2、2种可能取值,问假设空间规模? 由于色泽有"青绿" "乌黑" "浅白"这三种可能取值,也许"色泽"无论取什么值都合适,我们用通配符"*"来表示,故色泽 阅读全文
posted @ 2020-02-14 18:08 西伯尔 阅读(261) 评论(0) 推荐(0) 编辑

1 2 下一页
点击右上角即可分享
微信分享提示