随笔 - 388
文章 - 1
评论 - 31
阅读 -
94万
随笔分类 - 机器学习
一文搞懂HMM(隐马尔可夫模型)
摘要:什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。
阅读全文
随机森林(Random Forest),决策树,bagging, boosting(Adaptive Boosting,GBDT)
摘要:http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python
阅读全文
梯度下降法的三种形式BGD、SGD以及MBGD
摘要:https://www.cnblogs.com/maybe2030/p/5089753.html 阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结 https://www.cnblogs.com/maybe2030/p/5089753.ht
阅读全文
卷积神经网络CNN与深度学习常用框架的介绍与使用
摘要:https://www.cnblogs.com/softzrp/p/6724884.html https://blog.csdn.net/ice_actor/article/details/78648780 一、神经网络为什么比传统的分类器好 1.传统的分类器有 LR(逻辑斯特回归) 或者 line
阅读全文
CTR预估中GBDT与LR融合方案
摘要:https://blog.csdn.net/lilyth_lilyth/article/details/48032119 1、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR
阅读全文
在实际项目中,如何选择合适的机器学习模型?
摘要:https://blog.csdn.net/gitchat/article/details/78913235 本文来自作者 chen_h 在 GitChat 上分享 「在实际项目中,如何选择合适的机器学习模型?」,「阅读原文」查看交流实录。 在这个文章中,我们主要面向初学者或中级数据分析师,他们对识
阅读全文
logistic 回归与线性回归的比较
摘要:可以参考如下文章 https://blog.csdn.net/sinat_37965706/article/details/69204397 第一节中说了,logistic 回归和线性回归的区别是:线性回归是根据样本X各个维度的Xi的线性叠加(线性叠加的权重系数wi就是模型的参数)来得到预测值的Y,
阅读全文
感知器、logistic与svm 区别与联系
摘要:https://blog.csdn.net/m0_37786651/article/details/61614865 从感知器谈起 对于典型的二分类问题,线性分类器的目的就是找一个超平面把正负两类分开。对于这个超平面,我们可以用下面的式子来表示, ωTx+b=0ωTx+b=0 感知器是最简单的一种线
阅读全文
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
摘要:https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分
阅读全文
如何解决机器学习中数据不平衡问题
摘要:https://blog.csdn.net/lujiandong1/article/details/52658675 几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是
阅读全文
最优化方法:拉格朗日乘数法
摘要:https://blog.csdn.net/pipisorry/article/details/52135854 https://blog.csdn.net/yujianmin1990/article/details/48494607 解决约束优化问题——拉格朗日乘数法 拉格朗日乘数法(Lagran
阅读全文
几种常见的优化算法
摘要:https://www.cnblogs.com/xinbaby829/p/7289431.html 我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题“在一定成本下,如何使利润最大化”等。最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素
阅读全文
机器学习笔记——最小二乘法
摘要:https://www.cnblogs.com/wangkundentisy/p/7505487.html 一. 简介 首先来看百度百科对最小二乘法的介绍:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这
阅读全文
文本处理方法概述
摘要:https://www.cnblogs.com/arachis/p/text_dig.html 说明:本篇以实践为主,理论部分会尽量给出参考链接 摘要: 1.分词 2.关键词提取 3.词的表示形式 4.主题模型(LDA/TWE) 5.几种常用的NLP工具简介 6.文本挖掘(文本分类,文本标签化) 6
阅读全文
机器学习——几种距离度量方法比较
摘要:https://my.oschina.net/hunglish/blog/787596 1. 欧氏距离(Euclidean Distance) 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。 二维平面上点a(x1,y1)与b(x2,y2)
阅读全文
交叉验证(Cross Validation)简介
摘要:一、训练集 vs. 测试集 在模式识别(pattern recognition)与机器学习(machine learning)的相关研究中,经常会将数据集(dataset)分为训练集(training set)跟测试集(testing set)这两个子集,前者用以建立模型(model),后者则用来评
阅读全文
机器学习:什么是欠拟合和过拟合
摘要:https://blog.csdn.net/u011630575/article/details/71158656 1. 什么是欠拟合和过拟合 先看三张图片,这三张图片是线性回归模型 拟合的函数和训练集的关系 类似的,对于逻辑回归同样也存在欠拟合和过拟合问题,如下三张图 2. 如何解决欠拟合和过拟合
阅读全文
特征工程(6)-数据预处理数据变换
摘要:https://www.deeplearn.me/1397.html 上一篇讲解了使用哑编码的方式来进行数据预处理,这篇文章看起来只是用来作为数据类型的转换,比如多项式操作或者自定义函数 常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。2 个特征,度为 2 的多项式转换公式如下: (x
阅读全文
特征工程(1)-数据预处理标准化
摘要:https://www.deeplearn.me/1376.html 机器学习中特征工程的构造分析,以前在这方便还是没有去全面的了解,最近有一段磨刀的时间,还是从基础学习开始,理论结合代码推进 通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题: 不属于同一量纲,无量纲化处理:即特征的
阅读全文
特征工程(2)-数据预处理区间缩放法
摘要:https://www.deeplearn.me/1383.html 区间缩放法原理 最常见的就是使用最大最下值来进行处理,处理的公式如下 y=x−minmax−miny=x−minmax−min 上述公式中 min 代表数据最小值,max 代表数据最大值 部分结果如下:[[ 0.22222222
阅读全文