随笔档案「2018年5月」 - 笨拙的忍者

摘要：基于密度的聚类方法阅读全文

posted @ 2018-05-24 11:37 笨拙的忍者阅读(1924) 评论(0) 推荐(0)

摘要：代码来源于：tensorflow机器学习实战指南（曾益强译，2017年9月）——第七章：自然语言处理代码地址：https://github.com/nfmcclure/tensorflow-cookbook 数据：http://www.cs.cornell.edu/people/pabo/mov 阅读全文

posted @ 2018-05-20 19:13 笨拙的忍者阅读(910) 评论(1) 推荐(0)

tf.squeeze()

摘要：转载自：https://www.cnblogs.com/mdumpling/p/8053376.html 原型 tf.squeeze(input, squeeze_dims=None, name=None) 从tensor中删除所有大小是1的维度给定张量输入，此操作返回相同类型的张量，并删除所有尺阅读全文

posted @ 2018-05-20 19:12 笨拙的忍者阅读(5153) 评论(0) 推荐(0)

tf.concat()

摘要：转载自：https://blog.csdn.net/appleml/article/details/71023039 https://www.cnblogs.com/mdumpling/p/8053474.html tf.concat(concat_dim, values, name='concat 阅读全文

posted @ 2018-05-20 19:05 笨拙的忍者阅读(376) 评论(0) 推荐(0)

tf.slice()

摘要：转载自：https://blog.csdn.net/chenxieyy/article/details/53031943 函数原型 tf.slice(inputs,begin,size,name='') 从inputs中抽取部分内容参数说明 inputs：可以是list,array,tensor 阅读全文

posted @ 2018-05-20 18:48 笨拙的忍者阅读(235) 评论(0) 推荐(0)

熵——信息增益

摘要：整理自：https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw 南大周志华老师的西瓜书—第四章公式信息增益是决策树ID3算法在进行特征切割时使用的划分准则，其物理意义和互信息完全相同，并且公式也是完全相同。其中D表示数据集，A表示特征，信息增益表示得阅读全文

posted @ 2018-05-17 22:30 笨拙的忍者阅读(258) 评论(0) 推荐(0)

熵——导读

摘要：整理自：https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw 问题：熵是什么？熵存在的意义是啥？为什么叫熵？答案：在机器学习中熵是表征随机变量分布的混乱程度，分布越混乱，则熵越大，在物理学上表征物质状态的参量之一，也是体系混乱程度的度量；熵存在的意义阅读全文

posted @ 2018-05-17 22:14 笨拙的忍者阅读(384) 评论(0) 推荐(0)

熵——自信息

摘要：整理自：https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw 自信息是熵的基础，理解它对后续理解各种熵非常有用。自信息表示某一事件发生时所带来的信息量的多少，当事件发生的概率越大，则自信息越小，或者可以这样理解：某一事件发生的概率非常小，但是实际上却发生阅读全文

posted @ 2018-05-17 22:13 笨拙的忍者阅读(872) 评论(0) 推荐(0)

tensorflow在文本处理中的使用——skip-gram & CBOW原理总结

摘要：摘自：http://www.cnblogs.com/pinard/p/7160330.html 先看下列三篇，再理解此篇会更容易些（个人意见） skip-gram，CBOW，Word2Vec 词向量基础 CBOW与Skip-Gram用于神经网络语言模型 CBOW与Skip-Gram用于神经网络语言模阅读全文

posted @ 2018-05-15 11:59 笨拙的忍者阅读(297) 评论(0) 推荐(0)

霍夫曼树

摘要：转自：https://www.cnblogs.com/mcgrady/p/3329825.html 什么是霍夫曼树构建过程编码什么是霍夫曼树？哈夫曼树是一种带权路径长度最短的二叉树，也称为最优二叉树。它们的带权路径长度分别为：图a： WPL=5*2+7*2+2*2+13*2=54 图b：阅读全文

posted @ 2018-05-15 11:29 笨拙的忍者阅读(441) 评论(0) 推荐(0)

tensorflow在文本处理中的使用——Word2Vec预测

摘要：代码来源于：tensorflow机器学习实战指南（曾益强译，2017年9月）——第七章：自然语言处理代码地址：https://github.com/nfmcclure/tensorflow-cookbook 数据：http://www.cs.cornell.edu/people/pabo/mov 阅读全文

posted @ 2018-05-14 17:08 笨拙的忍者阅读(631) 评论(0) 推荐(0)

tensorflow在文本处理中的使用——CBOW词嵌入模型

摘要：代码来源于：tensorflow机器学习实战指南（曾益强译，2017年9月）——第七章：自然语言处理代码地址：https://github.com/nfmcclure/tensorflow-cookbook 数据：http://www.cs.cornell.edu/people/pabo/mov 阅读全文

posted @ 2018-05-14 13:53 笨拙的忍者阅读(729) 评论(0) 推荐(0)

tensorflow在文本处理中的使用——skip-gram模型

摘要：代码来源于：tensorflow机器学习实战指南（曾益强译，2017年9月）——第七章：自然语言处理代码地址：https://github.com/nfmcclure/tensorflow-cookbook 数据来源：http://www.cs.cornell.edu/people/pabo/m 阅读全文

posted @ 2018-05-13 11:03 笨拙的忍者阅读(1058) 评论(0) 推荐(0)

tf.truncates_normal()

摘要：转载自：https://blog.csdn.net/uestc_c2_403/article/details/72235565 tf.truncated_normal(shape, mean, stddev) :shape表示生成张量的维度，mean是均值，stddev是标准差。这个函数产生正太分布阅读全文

posted @ 2018-05-10 18:12 笨拙的忍者阅读(1458) 评论(0) 推荐(0)

深度学习——GAN

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 思想表达式实际计算方法改进 WGAN 1.思想 GAN结合了生成模型和判别模型，相当于矛与盾的撞击。生成模型负责生成最好的数阅读全文

posted @ 2018-05-10 13:18 笨拙的忍者阅读(332) 评论(0) 推荐(0)

深度学习——RNN

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 原理 RNN、LSTM、GRU区别 LSTM防止梯度弥散和爆炸引出word2vec 1.原理在普通的全连接网络或CNN中，每层阅读全文

posted @ 2018-05-10 11:07 笨拙的忍者阅读(431) 评论(0) 推荐(0)

深度学习——CNN

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 思想 filter尺寸的选择输出尺寸计算公式 pooling池化的作用常用的几个模型，这个最好能记住模型大致的尺寸参数 1.思阅读全文

posted @ 2018-05-10 10:56 笨拙的忍者阅读(233) 评论(0) 推荐(0)

深度学习——神经网络基础

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 Backpropagation 梯度消失、梯度爆炸常用的激活函数参数更新方法解决overfitting的方法 1.Backp 阅读全文

posted @ 2018-05-09 23:04 笨拙的忍者阅读(510) 评论(0) 推荐(0)

机器学习——基础

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 数据归一化（或者标准化，注意归一化和标准化不同）的原因 SVD和PCA 防止过拟合的方法数据不平衡问题 1.数据归一化（或者标准阅读全文

posted @ 2018-05-09 21:59 笨拙的忍者阅读(157) 评论(0) 推荐(0)

机器学习——评价指标

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 分类器的好坏 1.分类器的好坏这里首先要知道TP、FN（真的判成假的）、FP（假的判成真）、TN四种（可以画一个表格）。几种常阅读全文

posted @ 2018-05-09 21:38 笨拙的忍者阅读(126) 评论(0) 推荐(0)

机器学习——HMM & CRF

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 HMM CRF HMM和CRF对比 1.HMM算法隐马尔可夫模型是用于标注问题的生成模型。有几个参数（ππ，A，B）：初始状态概阅读全文

posted @ 2018-05-09 21:35 笨拙的忍者阅读(393) 评论(0) 推荐(0)

机器学习——EM

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 EM算法是用于含有隐变量模型的极大似然估计或者极大后验估计，有两步组成：E步，求期望（expectation）；M步，求极大（ma 阅读全文

posted @ 2018-05-09 21:32 笨拙的忍者阅读(142) 评论(0) 推荐(0)

机器学习——集成学习之Stacking

摘要：摘自： https://zhuanlan.zhihu.com/p/27689464 Stacking方法是指训练一个模型用于组合其他各个模型。首先我们先训练多个不同的模型，然后把之前训练的各个模型的输出为输入来训练一个模型，以得到一个最终的输出。理论上，Stacking可以表示上面提到的两种Ense 阅读全文

posted @ 2018-05-09 21:25 笨拙的忍者阅读(1003) 评论(0) 推荐(0)

机器学习——集成学习之Boosting

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 AdaBoost GBDT Xgboost 1.AdaBoost Boosting的本质实际上是一个加法模型，通过改变训练样本权重阅读全文

posted @ 2018-05-09 21:23 笨拙的忍者阅读(216) 评论(0) 推荐(0)

机器学习——集成学习之Bagging

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 随机森林 1.随机森林随机森林改变了决策树容易过拟合的问题，这主要是由两个操作所优化的：1、Boostrap从袋内有放回的抽取样阅读全文

posted @ 2018-05-09 21:10 笨拙的忍者阅读(216) 评论(0) 推荐(0)

机器学习——SVM

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 带核的SVM为什么能分类非线性问题？ RBF核一定是线性可分的吗？常用核函数及核函数的条件 SVM的基本思想是否所有的优化问题阅读全文

posted @ 2018-05-09 20:52 笨拙的忍者阅读(207) 评论(0) 推荐(0)

机器学习——逻辑回归

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 公式推导逻辑回归的基本概念 L1-norm和L2-norm LR和SVM对比 LR和随机森林区别常用的优化算法 1.公式推导（阅读全文

posted @ 2018-05-09 20:43 笨拙的忍者阅读(212) 评论(0) 推荐(0)

机器学习——决策树

摘要：整理自： https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 各种熵的计算常用的树搭建方法防止过拟合—剪枝前剪枝的几种停止条件 1.各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度（相阅读全文

posted @ 2018-05-09 17:44 笨拙的忍者阅读(138) 评论(0) 推荐(0)

centos7中安装R之前yum依赖的包

摘要：#!/bin/bash echo "#########################开始安装依赖环境#####################" sleep 1 yum -y install gcc yum -y install glibc-headers yum -y install gcc-c++ yum -y install gcc-gfortran yum -y install r... 阅读全文

posted @ 2018-05-08 18:17 笨拙的忍者阅读(384) 评论(0) 推荐(0)

tensorflow在文本处理中的使用——辅助函数

摘要：代码来源于：tensorflow机器学习实战指南（曾益强译，2017年9月）——第七章：自然语言处理代码地址：https://github.com/nfmcclure/tensorflow-cookbook 在讲述skip-gram,CBOW,Word2Vec,Doc2Vec模型时需要复用的函数阅读全文

posted @ 2018-05-08 16:29 笨拙的忍者阅读(1095) 评论(0) 推荐(0)

tensorflow在文本处理中的使用——TF-IDF算法

摘要：代码来源于：tensorflow机器学习实战指南（曾益强译，2017年9月）——第七章：自然语言处理代码地址：https://github.com/nfmcclure/tensorflow-cookbook 解决问题：使用“tfidf”来进行垃圾短信的预测（使用逻辑回归算法）缺点：未考虑单词顺阅读全文

posted @ 2018-05-08 15:37 笨拙的忍者阅读(1116) 评论(1) 推荐(0)

tensorflow在文本处理中的使用——词袋

摘要：代码来源于：tensorflow机器学习实战指南（曾益强译，2017年9月）——第七章：自然语言处理代码地址：https://github.com/nfmcclure/tensorflow-cookbook 解决问题：使用“词袋”嵌入来进行垃圾短信的预测（使用逻辑回归算法）缺点：不考虑相关单词阅读全文

posted @ 2018-05-07 16:56 笨拙的忍者阅读(589) 评论(0) 推荐(0)

tf.contrib.learn.preprocessing.VocabularyProcessor()

摘要：参数： max_document_length: 文档的最大长度。如果文本的长度大于最大长度，那么它会被剪切，反之则用0填充。 min_frequency: 词频的最小值，出现次数小于最小词频则不会被收录到词表中。 vocabulary: CategoricalVocabulary 对象。 toke 阅读全文

posted @ 2018-05-07 14:09 笨拙的忍者阅读(834) 评论(0) 推荐(0)

tf.reduce_sum()

摘要：官方例子：阅读全文

posted @ 2018-05-07 11:33 笨拙的忍者阅读(272) 评论(0) 推荐(0)

tf.expand_dims()

摘要：转载：https://blog.csdn.net/jasonzzj/article/details/60811035 TensorFlow中，想要维度增加一维，可以使用tf.expand_dims(input, dim, name=None)函数。当然，我们常用tf.reshape(input, s 阅读全文

posted @ 2018-05-07 11:23 笨拙的忍者阅读(59363) 评论(0) 推荐(6)