随笔分类 -  机器学习

1

NN[神经网络]中embedding的dense和sparse是什么意思?
摘要:NN[神经网络]中embedding的dense和sparse是什么意思? dense 表示稠密,在embedding中的dense时: 假设我们有这样一个句子: “北京是北京”,我们将其数值化表示为: dense embedding,需要你讲它转换成onehot表示: 假设embedding对输出 阅读全文

posted @ 2020-06-09 18:51 龚细军 阅读(5370) 评论(0) 推荐(1) 编辑

paddlepaddle关于使用dropout小案例
摘要:结果: 阅读全文

posted @ 2020-01-08 14:57 龚细军 阅读(1026) 评论(0) 推荐(0) 编辑

Hierarchical softmax(分层softmax)简单描述.
摘要:最近在做分布式模型实现时,使用到了这个函数. 可以说非常体验非常的好. 速度非常快,效果和softmax差不多. 我们知道softmax在求解的时候,它的时间复杂度和我们的词表总量V一样O(V),是性线性的,从它的函数方程式中,我们也可以很容易得出: softmax: f(x) = e^x / su 阅读全文

posted @ 2019-01-10 15:55 龚细军 阅读(971) 评论(1) 推荐(1) 编辑

N-gram的简单的介绍
摘要:目录: 4. 评估N-gram的模型. 前言: N-gram是机器学习中NLP处理中的一个较为重要的语言模型,常用来做句子相似度比较,模糊查询,以及句子合理性,句子矫正等. 再系统的介绍N-gram前,我们先了解一下这几种概率. 正文: 1、联合概率介绍: 形如:p(W1,....,Wn); 表示的 阅读全文

posted @ 2018-06-13 17:25 龚细军 阅读(9812) 评论(0) 推荐(1) 编辑

关于TF(词频) 和TF-IDF(词频-逆向文件频率 )的理解
摘要:##TF-IDF TF(词频): 假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T。那么 TF = T/N; 所以表示为: 某一个词在某一个文件中出现的频率. TF-IDF(词频-逆向文件频率): 表示的词频和逆向文件频率的乘积. 比如: 假定存在一份有N个词的文件A,其中‘明星‘这个 阅读全文

posted @ 2018-03-29 23:26 龚细军 阅读(3372) 评论(0) 推荐(0) 编辑

Use of Deep Learning in Modern Recommendation System: A Summary of Recent Works(笔记)
摘要:注意:论文中,很多的地方出现baseline,可以理解为参照物的意思,但是在论文中,我们还是直接将它称之为基线, 也就是对照物,参照物. 这片论文中,作者没有去做实际的实验,但是却做了一件很有意义的事,他收罗了近些年所有推荐系统中涉及到深度学习的文章 ,并将这些文章进行分类,逐一分析,然后最后给出了 阅读全文

posted @ 2018-01-19 15:38 龚细军 阅读(2096) 评论(0) 推荐(1) 编辑

调参过程中的参数 学习率,权重衰减,冲量(learning_rate , weight_decay , momentum)
摘要:无论是深度学习还是机器学习,大多情况下训练中都会遇到这几个参数,今天依据我自己的理解具体的总结一下,可能会存在错误,还请指正. learning_rate , weight_decay , momentum这三个参数的含义. 并附上demo. 我们会使用一个例子来说明一下: 比如我们有一堆数据,我们 阅读全文

posted @ 2017-12-15 11:18 龚细军 阅读(11624) 评论(1) 推荐(1) 编辑

SVM公式推导笔记
摘要:参考资料: 对偶函数-http://blog.pluskid.org/?p=702 KTT和拉格朗日乘子-http://www.cnblogs.com/zhangchaoyang/articles/2726873.html SVM推倒:http://blog.sina.com.cn/s/blog_4 阅读全文

posted @ 2017-10-20 18:27 龚细军 阅读(831) 评论(0) 推荐(0) 编辑

评估一个预测模型性能通常都有那些指标
摘要:对于不同类型的模型,会有不同的评估指标,那么我们从最直接的回归和分类这两个类型,对于结果连续的回归问题, 一般使用的大致为:MSE(均方差),MAE(绝对平均差),RMSE(根均方差)这三种评估方法,这三种方式公式此处补贴出来。 对于离散的分类问题,我们一般看ROC曲线,以及AUC曲线,一般好的模型 阅读全文

posted @ 2017-08-29 17:56 龚细军 阅读(1519) 评论(0) 推荐(0) 编辑

读RCNN论文笔记
摘要:1. RCNN的模型(如下图)描述: RCNN相比传统的物体检测,还是引入传统的物体检测的基本流程,先找出候选目标物体,逐个的提取特征,不过rbg大神引入了当时炙手可热的CNN卷积网络取代传统上的HOG,DPM,LBP,SIFT等算法来对图像的特征进行提取,值得说道的是CNN由于可以放到GPU上,所 阅读全文

posted @ 2017-07-02 16:51 龚细军 阅读(7895) 评论(0) 推荐(0) 编辑

降维之pca算法
摘要:pca算法: 算法原理: pca利用的两个维度之间的关系和协方差成正比,协方差为0时,表示这两个维度无关,如果协方差越大这表明两个维度之间相关性越大,因而降维的时候, 都是找协方差最大的。 代码: 阅读全文

posted @ 2017-06-10 19:28 龚细军 阅读(381) 评论(0) 推荐(0) 编辑

聚类之dbscan算法
摘要:简要的说明: dbscan为一个密度聚类算法,无需指定聚类个数。 python的简单实例: 结果: 阅读全文

posted @ 2017-06-04 17:36 龚细军 阅读(851) 评论(0) 推荐(0) 编辑

使用感知机训练加法模型
摘要:感知机此处不介绍,这里只是简单的做了一个使用感知机思路,训练一个y=a+b计算模型. 运行结果: 阅读全文

posted @ 2017-03-31 22:27 龚细军 阅读(699) 评论(0) 推荐(1) 编辑

关于BP网络的一些总结
摘要:背景 前段时间,用过一些模型如vgg,lexnet,用于做监督学习训练,顺带深入的学习了一下相关模型的结构&原理,对于它的反向传播算法记忆比较深刻, 就自己的理解来描述一下BP网络. 关于BP网络的整体简述 BP神经网络,全程为前馈神经网络,它被用到监督学习中的主体思想是(我们假定我们这里各个层La 阅读全文

posted @ 2016-12-21 20:15 龚细军 阅读(1210) 评论(0) 推荐(0) 编辑

关于梯度下降算法的的一些总结
摘要:目录: 1. 前言 2. 正文 2.1 梯度 2.2 梯度下降算法 2.2.1 批量梯度下降算法 2.2.2 随机梯度下降算法 3.参考文献 1.前言 这篇随笔,记录的是个人对于梯度算法的些许理解. 由于充斥着太多关于梯度算法的各种说明软文,所以呢? 本文是从一个实例出发,来逐步使用各种算法进行求解 阅读全文

posted @ 2016-09-21 15:21 龚细军 阅读(37386) 评论(5) 推荐(8) 编辑

机器学习优化算法之爬山算法小结
摘要:简言 机器学习的项目,不可避免的需要补充一些优化算法,对于优化算法,爬山算法还是比较重要的.鉴于此,花了些时间仔细阅读了些爬山算法的paper.基于这些,做一些总结. 目录 1. 爬山算法简单描述 2. 爬山算法的主要算法 2.1 首选爬山算法 2.2 最陡爬山算法 2.3 随机重新开始爬山算法 2 阅读全文

posted @ 2016-09-14 22:05 龚细军 阅读(17537) 评论(13) 推荐(9) 编辑

机器学习之最小二乘法
摘要:1.背景: 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。 阅读全文

posted @ 2016-09-12 19:37 龚细军 阅读(1640) 评论(0) 推荐(0) 编辑

机器学习之KNN算法思想及其实现
摘要:从一个例子来直观感受KNN思想 如下图 , 绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 从这个例子中,我们再来看KNN思想: 实现代码: KN 阅读全文

posted @ 2016-09-06 14:56 龚细军 阅读(1071) 评论(0) 推荐(1) 编辑

机器学习之决策树熵&信息增量求解算法实现
摘要:此文不对理论做相关阐述,仅涉及代码实现: 1.熵计算公式: P为正例,Q为反例 Entropy(S) = -PLog2(P) - QLog2(Q); 2.信息增量计算: Gain(S,Sv) = Entropy(S) - (|Sv|/|S|)ΣEntropy(Sv); 举例: 转化数据输入: 1 p 阅读全文

posted @ 2016-09-02 20:44 龚细军 阅读(1777) 评论(0) 推荐(0) 编辑

朴素贝叶斯分类器(离散型)算法实现(一)
摘要:1. 贝叶斯定理: (1) P(A^B) = P(A|B)P(B) = P(B|A)P(A) 由(1)得 P(A|B) = P(B|A)*P(A)/[p(B)] 贝叶斯在最基本题型: 假定一个场景,在一所高中男女比例为4:6, 留长头发的有男学生有女学生, 我们设定女生都留长发 , 而男生中有10% 阅读全文

posted @ 2016-09-01 17:16 龚细军 阅读(3089) 评论(0) 推荐(1) 编辑

1
点击右上角即可分享
微信分享提示