05 2018 档案
聚类——DBSCAN
摘要:基于密度的聚类方法 阅读全文
posted @ 2018-05-24 11:37 笨拙的忍者 阅读(1924) 评论(0) 推荐(0)
tensorflow在文本处理中的使用——Doc2Vec情感分析
摘要:代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据:http://www.cs.cornell.edu/people/pabo/mov 阅读全文
posted @ 2018-05-20 19:13 笨拙的忍者 阅读(910) 评论(1) 推荐(0)
tf.squeeze()
摘要:转载自:https://www.cnblogs.com/mdumpling/p/8053376.html 原型 tf.squeeze(input, squeeze_dims=None, name=None) 从tensor中删除所有大小是1的维度 给定张量输入,此操作返回相同类型的张量,并删除所有尺 阅读全文
posted @ 2018-05-20 19:12 笨拙的忍者 阅读(5153) 评论(0) 推荐(0)
tf.concat()
摘要:转载自:https://blog.csdn.net/appleml/article/details/71023039 https://www.cnblogs.com/mdumpling/p/8053474.html tf.concat(concat_dim, values, name='concat 阅读全文
posted @ 2018-05-20 19:05 笨拙的忍者 阅读(376) 评论(0) 推荐(0)
tf.slice()
摘要:转载自:https://blog.csdn.net/chenxieyy/article/details/53031943 函数原型 tf.slice(inputs,begin,size,name='') 从inputs中抽取部分内容 参数说明 inputs:可以是list,array,tensor 阅读全文
posted @ 2018-05-20 18:48 笨拙的忍者 阅读(235) 评论(0) 推荐(0)
熵——信息增益
摘要:整理自:https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw 南大周志华老师的西瓜书—第四章 公式 信息增益是决策树ID3算法在进行特征切割时使用的划分准则,其物理意义和互信息完全相同,并且公式也是完全相同。 其中D表示数据集,A表示特征,信息增益表示得 阅读全文
posted @ 2018-05-17 22:30 笨拙的忍者 阅读(258) 评论(0) 推荐(0)
熵——导读
摘要:整理自:https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw 问题:熵是什么?熵存在的意义是啥?为什么叫熵? 答案:在机器学习中熵是表征随机变量分布的混乱程度,分布越混乱,则熵越大,在物理学上表征物质状态的参量之一,也是体系混乱程度的度量; 熵存在的意义 阅读全文
posted @ 2018-05-17 22:14 笨拙的忍者 阅读(384) 评论(0) 推荐(0)
熵——自信息
摘要:整理自:https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw 自信息是熵的基础,理解它对后续理解各种熵非常有用。自信息表示某一事件发生时所带来的信息量的多少,当事件发生的概率越大,则自信息越小,或者可以这样理解:某一事件发生的概率非常小,但是实际上却发生 阅读全文
posted @ 2018-05-17 22:13 笨拙的忍者 阅读(872) 评论(0) 推荐(0)
tensorflow在文本处理中的使用——skip-gram & CBOW原理总结
摘要:摘自:http://www.cnblogs.com/pinard/p/7160330.html 先看下列三篇,再理解此篇会更容易些(个人意见) skip-gram,CBOW,Word2Vec 词向量基础 CBOW与Skip-Gram用于神经网络语言模型 CBOW与Skip-Gram用于神经网络语言模 阅读全文
posted @ 2018-05-15 11:59 笨拙的忍者 阅读(297) 评论(0) 推荐(0)
霍夫曼树
摘要:转自:https://www.cnblogs.com/mcgrady/p/3329825.html 什么是霍夫曼树 构建过程 编码 什么是霍夫曼树? 哈夫曼树是一种带权路径长度最短的二叉树,也称为最优二叉树。 它们的带权路径长度分别为: 图a: WPL=5*2+7*2+2*2+13*2=54 图b: 阅读全文
posted @ 2018-05-15 11:29 笨拙的忍者 阅读(441) 评论(0) 推荐(0)
tensorflow在文本处理中的使用——Word2Vec预测
摘要:代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据:http://www.cs.cornell.edu/people/pabo/mov 阅读全文
posted @ 2018-05-14 17:08 笨拙的忍者 阅读(631) 评论(0) 推荐(0)
tensorflow在文本处理中的使用——CBOW词嵌入模型
摘要:代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据:http://www.cs.cornell.edu/people/pabo/mov 阅读全文
posted @ 2018-05-14 13:53 笨拙的忍者 阅读(729) 评论(0) 推荐(0)
tensorflow在文本处理中的使用——skip-gram模型
摘要:代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据来源:http://www.cs.cornell.edu/people/pabo/m 阅读全文
posted @ 2018-05-13 11:03 笨拙的忍者 阅读(1058) 评论(0) 推荐(0)
tf.truncates_normal()
摘要:转载自:https://blog.csdn.net/uestc_c2_403/article/details/72235565 tf.truncated_normal(shape, mean, stddev) :shape表示生成张量的维度,mean是均值,stddev是标准差。这个函数产生正太分布 阅读全文
posted @ 2018-05-10 18:12 笨拙的忍者 阅读(1458) 评论(0) 推荐(0)
深度学习——GAN
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 思想 表达式 实际计算方法 改进 WGAN 1.思想 GAN结合了生成模型和判别模型,相当于矛与盾的撞击。生成模型负责生成最好的数 阅读全文
posted @ 2018-05-10 13:18 笨拙的忍者 阅读(332) 评论(0) 推荐(0)
深度学习——RNN
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 原理 RNN、LSTM、GRU区别 LSTM防止梯度弥散和爆炸 引出word2vec 1.原理 在普通的全连接网络或CNN中,每层 阅读全文
posted @ 2018-05-10 11:07 笨拙的忍者 阅读(431) 评论(0) 推荐(0)
深度学习——CNN
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 思想 filter尺寸的选择 输出尺寸计算公式 pooling池化的作用 常用的几个模型,这个最好能记住模型大致的尺寸参数 1.思 阅读全文
posted @ 2018-05-10 10:56 笨拙的忍者 阅读(233) 评论(0) 推荐(0)
深度学习——神经网络基础
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 Backpropagation 梯度消失、梯度爆炸 常用的激活函数 参数更新方法 解决overfitting的方法 1.Backp 阅读全文
posted @ 2018-05-09 23:04 笨拙的忍者 阅读(510) 评论(0) 推荐(0)
机器学习——基础
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 数据归一化(或者标准化,注意归一化和标准化不同)的原因 SVD和PCA 防止过拟合的方法 数据不平衡问题 1.数据归一化(或者标准 阅读全文
posted @ 2018-05-09 21:59 笨拙的忍者 阅读(157) 评论(0) 推荐(0)
机器学习——评价指标
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 分类器的好坏 1.分类器的好坏 这里首先要知道TP、FN(真的判成假的)、FP(假的判成真)、TN四种(可以画一个表格)。 几种常 阅读全文
posted @ 2018-05-09 21:38 笨拙的忍者 阅读(126) 评论(0) 推荐(0)
机器学习——HMM & CRF
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 HMM CRF HMM和CRF对比 1.HMM算法 隐马尔可夫模型是用于标注问题的生成模型。有几个参数(ππ,A,B):初始状态概 阅读全文
posted @ 2018-05-09 21:35 笨拙的忍者 阅读(393) 评论(0) 推荐(0)
机器学习——EM
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 EM算法是用于含有隐变量模型的极大似然估计或者极大后验估计,有两步组成:E步,求期望(expectation);M步,求极大(ma 阅读全文
posted @ 2018-05-09 21:32 笨拙的忍者 阅读(142) 评论(0) 推荐(0)
机器学习——集成学习之Stacking
摘要:摘自: https://zhuanlan.zhihu.com/p/27689464 Stacking方法是指训练一个模型用于组合其他各个模型。首先我们先训练多个不同的模型,然后把之前训练的各个模型的输出为输入来训练一个模型,以得到一个最终的输出。理论上,Stacking可以表示上面提到的两种Ense 阅读全文
posted @ 2018-05-09 21:25 笨拙的忍者 阅读(1003) 评论(0) 推荐(0)
机器学习——集成学习之Boosting
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 AdaBoost GBDT Xgboost 1.AdaBoost Boosting的本质实际上是一个加法模型,通过改变训练样本权重 阅读全文
posted @ 2018-05-09 21:23 笨拙的忍者 阅读(216) 评论(0) 推荐(0)
机器学习——集成学习之Bagging
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 随机森林 1.随机森林 随机森林改变了决策树容易过拟合的问题,这主要是由两个操作所优化的:1、Boostrap从袋内有放回的抽取样 阅读全文
posted @ 2018-05-09 21:10 笨拙的忍者 阅读(216) 评论(0) 推荐(0)
机器学习——SVM
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 带核的SVM为什么能分类非线性问题? RBF核一定是线性可分的吗? 常用核函数及核函数的条件 SVM的基本思想 是否所有的优化问题 阅读全文
posted @ 2018-05-09 20:52 笨拙的忍者 阅读(207) 评论(0) 推荐(0)
机器学习——逻辑回归
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 公式推导 逻辑回归的基本概念 L1-norm和L2-norm LR和SVM对比 LR和随机森林区别 常用的优化算法 1.公式推导( 阅读全文
posted @ 2018-05-09 20:43 笨拙的忍者 阅读(212) 评论(0) 推荐(0)
机器学习——决策树
摘要:整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 各种熵的计算 常用的树搭建方法 防止过拟合—剪枝 前剪枝的几种停止条件 1.各种熵的计算 熵、联合熵、条件熵、交叉熵、KL散度(相 阅读全文
posted @ 2018-05-09 17:44 笨拙的忍者 阅读(138) 评论(0) 推荐(0)
centos7中安装R之前yum依赖的包
摘要:#!/bin/bash echo "#########################开始安装依赖环境#####################" sleep 1 yum -y install gcc yum -y install glibc-headers yum -y install gcc-c++ yum -y install gcc-gfortran yum -y install r... 阅读全文
posted @ 2018-05-08 18:17 笨拙的忍者 阅读(384) 评论(0) 推荐(0)
tensorflow在文本处理中的使用——辅助函数
摘要:代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 在讲述skip-gram,CBOW,Word2Vec,Doc2Vec模型时需要复用的函数 阅读全文
posted @ 2018-05-08 16:29 笨拙的忍者 阅读(1095) 评论(0) 推荐(0)
tensorflow在文本处理中的使用——TF-IDF算法
摘要:代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 解决问题:使用“tfidf”来进行垃圾短信的预测(使用逻辑回归算法) 缺点:未考虑单词顺 阅读全文
posted @ 2018-05-08 15:37 笨拙的忍者 阅读(1116) 评论(1) 推荐(0)
tensorflow在文本处理中的使用——词袋
摘要:代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 解决问题:使用“词袋”嵌入来进行垃圾短信的预测(使用逻辑回归算法) 缺点:不考虑相关单词 阅读全文
posted @ 2018-05-07 16:56 笨拙的忍者 阅读(589) 评论(0) 推荐(0)
tf.contrib.learn.preprocessing.VocabularyProcessor()
摘要:参数: max_document_length: 文档的最大长度。如果文本的长度大于最大长度,那么它会被剪切,反之则用0填充。 min_frequency: 词频的最小值,出现次数小于最小词频则不会被收录到词表中。 vocabulary: CategoricalVocabulary 对象。 toke 阅读全文
posted @ 2018-05-07 14:09 笨拙的忍者 阅读(834) 评论(0) 推荐(0)
tf.reduce_sum()
摘要:官方例子: 阅读全文
posted @ 2018-05-07 11:33 笨拙的忍者 阅读(272) 评论(0) 推荐(0)
tf.expand_dims()
摘要:转载:https://blog.csdn.net/jasonzzj/article/details/60811035 TensorFlow中,想要维度增加一维,可以使用tf.expand_dims(input, dim, name=None)函数。当然,我们常用tf.reshape(input, s 阅读全文
posted @ 2018-05-07 11:23 笨拙的忍者 阅读(59363) 评论(0) 推荐(6)