随笔分类 - 机器学习理论
摘要:前置阅读:http://blog.csdn.net/happynear/article/details/44238541——Batch Norm阅读笔记与实现 前置阅读:http://www.zhihu.com/question/38102762——知乎网友 Deep Learning与Bayesi
阅读全文
摘要:Poor Generalization 这可能是实际中遇到的最多问题。 比如FC网络为什么效果比CNN差那么多啊,是不是陷入局部最小值啊?是不是过拟合啊?是不是欠拟合啊? 在操场跑步的时候,又从SVM角度思考了一下,我认为Poor Generalization属于过拟合范畴。 与我的论文 [深度神经
阅读全文
摘要:Reference:Spatial Transformer Networks [Google.DeepMind]Reference:[Theano源码,基于Lasagne]闲扯:大数据不如小数据这是一份很新的Paper(2015.6),来自于Google旗下的新锐AI公司DeepMind的四位剑桥P...
阅读全文
摘要:高斯分布·拟合1.1 优美的高斯分布中心极限定理[P79]证明均匀分布和二项分布在数据量 $N\rightarrow \infty$ 时,都会演化近似为高斯分布。作为最晚发现的概率分布,可以假设任何不确定的实数服从高斯分布。对于回归问题,显然目标值 $t$ ,有 $t\sim N(\mu ,\sig...
阅读全文
摘要:最难读的Theano代码这份LSTM代码的作者,感觉和前面Tutorial代码作者不是同一个人。对于Theano、Python的手法使用得非常娴熟。尤其是在两重并行设计上:①LSTM各个门之间并行②Mini-batch让多个句子并行同时,在训练、预处理上使用了诸多技巧,相比之前的Tutorial,更...
阅读全文
摘要:Reference:ADADELTA: An Adaptive Learning Rate Method 超参数 超参数(Hyper-Parameter)是困扰神经网络训练的问题之一,因为这些参数不可通过常规方法学习获得。 神经网络经典五大超参数: 学习率(Leraning Rate)、权值初始化(
阅读全文
摘要:来源 偶然翻了一下微博,发现了@爱可可-爱生活老师转的,Hinton教授今年六月末在剑桥的一个讲座。 视频度娘链接:http://pan.baidu.com/s/1eQjj0rS 整个讲座前半部分基本在回顾DL目前的几个成就:RBM、DNN、CNN、RNN、Dropout 以及在CV、NLP、Spe
阅读全文
摘要:机器学习编年史这几年机器学习火热,很大程度上是由于深度学习分支给机器学习送入了大量新鲜活力。统计学家说:“我概率统计理论,我来讲!" (代表 Leonard E. Baum [隐马尔科夫模型])数学家说:“我有严谨数学证明,我来讲!” (代表 Vapnik [SVM支持向量机])神经计算&计算机科学...
阅读全文
摘要:自剪枝神经网络 Simple RNN从理论上来看,具有全局记忆能力,因为T时刻,递归隐层一定记录着时序为1的状态 但由于Gradient Vanish问题,T时刻向前反向传播的Gradient在T-10时刻可能就衰减为0。 从Long-Term退化至Short-Term。 尽管ReLU能够在前馈网络
阅读全文
摘要:Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks]Alex是RNN最著名变种,LSTM发明者Jürgen Schmidhuber的高徒,现加入University of Toront...
阅读全文
摘要:序Word2Vec原生是不支持Windows的,索性就用Qt移植了一下。大概做了下面几件事。①替换LinuxAPI的pthread为QThread。②取消了posix_memalign(),内存对齐这玩意据说是编译器的活,不知道Mikolov为什么写出来,难道说源码是Google万能工程师+编译器高...
阅读全文
摘要:Reference:http://blog.csdn.net/itplus/article/details/37969519 (Word2Vec解析(部分有错))源码:http://pan.baidu.com/s/1o6KddOIWord2Vec中的Coding技巧1.1 ReadWord()训练语...
阅读全文
摘要:Link:https://github.com/neopenx/Dragon起因最近看了Hinton的Dropout,发现原来的乱代码只能在Softmax层前面加Dropout。索性把整个Theano封装了一遍了。瞄了几眼Github上的Theano的另外一个封装Keras,然后按照自己风格手写了(...
阅读全文
摘要:Logistic回归、传统多层神经网络1.1 线性回归、线性神经网络、Logistic/Softmax回归线性回归是用于数据拟合的常规手段,其任务是优化目标函数:$h(\theta )=\theta+\theta_{1}x_{1}+\theta_{2}x_{2}+....\theta_{n}x_{n...
阅读全文
摘要:Reference:http://licstar.net/archives/328 (比较综合的词向量研究现状分析)序:为什么NLP在模式识别里面比较难?Licstar的文章开头这么提到:语言(词、句子、篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号。语音、...
阅读全文
摘要:关于数据集 Cifar-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar是加拿大政府牵头投资的一个先进科学项目研究所。说白了,就是看你穷的没钱搞研究,就施舍给你。Hinton、Bengio和他的学生在2004年...
阅读全文
摘要:论文参考:Deep Sparse Rectifier Neural Networks(很有趣的一篇paper)起源:传统激活函数、脑神经元激活频率研究、稀疏激活性传统Sigmoid系激活函数传统神经网络中最常用的两个激活函数,Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoi...
阅读全文
摘要:起源:Boltzmann神经网络Boltzmann神经网络的结构是由Hopfield递归神经网络改良过来的,Hopfield中引入了统计物理学的能量函数的概念。即,cost函数由统计物理学的能量函数给出,随着网络的训练,能量函数会逐渐变小。可视为一动力系统,其能量函数的极小值对应系统的稳定平衡点。H...
阅读全文
摘要:起源:自动编码器单自动编码器,充其量也就是个强化补丁版PCA,只用一次好不过瘾。于是Bengio等人在2007年的 Greedy Layer-Wise Training of Deep Networks中,仿照stacked RBM构成的DBN,提出Stacked AutoEncoder,为非监督学...
阅读全文
摘要:起源:PCA、特征提取....随着一些奇怪的高维数据出现,比如图像、语音,传统的统计学-机器学习方法遇到了前所未有的挑战。数据维度过高,数据单调,噪声分布广,传统方法的“数值游戏”很难奏效。数据挖掘?已然挖不出有用的东西。为了解决高维度的问题,出现的线性学习的PCA降维方法,PCA的数学理论确实无懈...
阅读全文