摘要:
1.功能 采用python的gensim模块训练的word2vec模型,然后采用tensorflow读取模型可视化embedding向量 ps:采用C++版本训练的w2v模型,python的gensim模块读不了。 2.python训练word2vec模型代码 3.tensorflow读取模型可视化 阅读全文
摘要:
给定一个字符串如:2/(3+4))*(3-1)+6-8 ,用程序解析出来,输出最终的值。这是个AST 语法解析问题,最直观的是建立一颗语法树,然后遍历语法树来获得最终的效果。如下图,建立这么一个语法树,然后广度优先搜索,进行操作就能得到最终的结果。 但是,其实我们有更方便的方法去做,不用建立语法树, 阅读全文
摘要:
链接: http://note.youdao.com/noteshare?id=aeb1c7a30c5f4b70e3fff51f28ee5c47 懒得复制到这里了,一开始是在有道云笔记上写的,这里的公式支持又不太好,于是直接给出我有道云笔记的总结链接好了。 阅读全文
摘要:
一.前言 在做神经网络的训练学习过程中,一开始,经常是喜欢用二次代价函数来做损失函数,因为比较通俗易懂,后面在大部分的项目实践中却很少用到二次代价函数作为损失函数,而是用交叉熵作为损失函数。为什么?一直在思考这个问题,这两者有什么区别,那个更好?下面通过数学的角度来解释下。 思考: 1.我们希望我们 阅读全文
摘要:
一.决策树归纳 发展历程: ID3-->C4.5-->CART 二.常用度量方法 常见的度量方法有:信息增益,增益率,基尼指数(Gini指数) 例子: 判断一个用户是否会购买电脑的数据,下面的计算都是以这里例子的数据作为计算。 属性为:age,income,student,credit_rating 阅读全文
摘要:
一.交叉熵损失函数形式 现在给出三种交叉熵损失函数的形式,来思考下分别表示的的什么含义。 --式子1 --式子2 --式子3 解释下符号,m为样本的个数,C为类别个数。上面三个式子都可以作为神经网络的损失函数作为训练,那么区别是什么? ■1》式子1,用于那些类别之间互斥(如:一张图片中只能保护猫或者 阅读全文
摘要:
一.场景介绍 最近在研究一个场景:图片质量评分,给一张图片一个预测的分数。 里面提到了用 EMD(Earth Mover’s Distance)算法来评估两张图片之间的分布距离。下面主要讲解下EMD算法的原理。 二.EMD算法 1.起源 EMD最早由Yossi Rubner在2000年用在图像检 阅读全文
摘要:
一:背景 http://www.cnblogs.com/aijianiula/p/5397857.html 上节中,总结了频繁项集挖掘的最基本算法:Apriori算法。这篇文章写下它的改进算法FGrowth算法,记得这个算法是香港一位教授提出来的,其思想非常值得借鉴和思考。 二:FGrowth FP 阅读全文
摘要:
一:背景介绍 最近在公司用spark的平台做了一个购物车的推荐,用到的算法主要是FGrowth算法,它是Apriori算法的升级版,算法的主要目的是找出频繁进行一起购买的商品。本文主要介绍两个算法的背景,触及到公司的推荐具体流程,这里就不介绍了。 二:Apriori Apriori算法是挖掘频繁项的 阅读全文