机器学习理论 - 随笔分类 - Physcal

从Bayesian角度浅析Batch Normalization

摘要：前置阅读：http://blog.csdn.net/happynear/article/details/44238541——Batch Norm阅读笔记与实现前置阅读：http://www.zhihu.com/question/38102762——知乎网友 Deep Learning与Bayesi 阅读全文

posted @ 2016-02-24 10:11 Physcal 阅读(15954) 评论(3) 推荐(6) 编辑

关于过拟合、局部最小值、以及Poor Generalization的思考

摘要：Poor Generalization 这可能是实际中遇到的最多问题。比如FC网络为什么效果比CNN差那么多啊，是不是陷入局部最小值啊？是不是过拟合啊？是不是欠拟合啊？在操场跑步的时候，又从SVM角度思考了一下，我认为Poor Generalization属于过拟合范畴。与我的论文 [深度神经阅读全文

posted @ 2015-11-27 22:00 Physcal 阅读(4280) 评论(6) 推荐(2) 编辑

Spatial Transformer Networks(空间变换神经网络)

摘要：Reference：Spatial Transformer Networks [Google.DeepMind]Reference：[Theano源码，基于Lasagne]闲扯：大数据不如小数据这是一份很新的Paper(2015.6)，来自于Google旗下的新锐AI公司DeepMind的四位剑桥P... 阅读全文

posted @ 2015-10-21 15:02 Physcal 阅读(20006) 评论(10) 推荐(3) 编辑

PRML读书后记(一): 拟合学习

摘要：高斯分布·拟合1.1 优美的高斯分布中心极限定理[P79]证明均匀分布和二项分布在数据量 $N\rightarrow \infty$ 时，都会演化近似为高斯分布。作为最晚发现的概率分布，可以假设任何不确定的实数服从高斯分布。对于回归问题，显然目标值 $t$ ，有 $t\sim N(\mu ,\sig... 阅读全文

posted @ 2015-09-18 22:46 Physcal 阅读(2245) 评论(2) 推荐(0) 编辑

Theano：LSTM源码解析

摘要：最难读的Theano代码这份LSTM代码的作者，感觉和前面Tutorial代码作者不是同一个人。对于Theano、Python的手法使用得非常娴熟。尤其是在两重并行设计上：①LSTM各个门之间并行②Mini-batch让多个句子并行同时，在训练、预处理上使用了诸多技巧，相比之前的Tutorial，更... 阅读全文

posted @ 2015-09-14 02:00 Physcal 阅读(23413) 评论(65) 推荐(3) 编辑

自适应学习率调整：AdaDelta

摘要：Reference：ADADELTA: An Adaptive Learning Rate Method 超参数超参数（Hyper-Parameter)是困扰神经网络训练的问题之一，因为这些参数不可通过常规方法学习获得。神经网络经典五大超参数: 学习率(Leraning Rate)、权值初始化( 阅读全文

posted @ 2015-08-29 09:25 Physcal 阅读(53999) 评论(17) 推荐(6) 编辑

神经网络模型算法与生物神经网络的最新联系

摘要：来源偶然翻了一下微博，发现了@爱可可-爱生活老师转的，Hinton教授今年六月末在剑桥的一个讲座。视频度娘链接：http://pan.baidu.com/s/1eQjj0rS 整个讲座前半部分基本在回顾DL目前的几个成就：RBM、DNN、CNN、RNN、Dropout 以及在CV、NLP、Spe 阅读全文

posted @ 2015-08-24 23:25 Physcal 阅读(3777) 评论(0) 推荐(1) 编辑

[杂谈]机器学习：数学、概率与人工智能

摘要：机器学习编年史这几年机器学习火热，很大程度上是由于深度学习分支给机器学习送入了大量新鲜活力。统计学家说：“我概率统计理论，我来讲！" （代表 Leonard E. Baum [隐马尔科夫模型])数学家说：“我有严谨数学证明，我来讲！” （代表 Vapnik [SVM支持向量机])神经计算&计算机科学... 阅读全文

posted @ 2015-08-21 20:14 Physcal 阅读(4997) 评论(5) 推荐(2) 编辑

Long-Short Memory Network(LSTM长短期记忆网络)

摘要：自剪枝神经网络 Simple RNN从理论上来看，具有全局记忆能力，因为T时刻，递归隐层一定记录着时序为1的状态但由于Gradient Vanish问题，T时刻向前反向传播的Gradient在T-10时刻可能就衰减为0。从Long-Term退化至Short-Term。尽管ReLU能够在前馈网络阅读全文

posted @ 2015-08-15 17:08 Physcal 阅读(4862) 评论(0) 推荐(0) 编辑

Recurrent Neural Network(循环神经网络)

摘要：Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks]Alex是RNN最著名变种，LSTM发明者Jürgen Schmidhuber的高徒，现加入University of Toront... 阅读全文

posted @ 2015-08-15 12:49 Physcal 阅读(19240) 评论(2) 推荐(2) 编辑

QWord2vec：word2vec移植版+GUI

摘要：序Word2Vec原生是不支持Windows的，索性就用Qt移植了一下。大概做了下面几件事。①替换LinuxAPI的pthread为QThread。②取消了posix_memalign()，内存对齐这玩意据说是编译器的活，不知道Mikolov为什么写出来，难道说源码是Google万能工程师+编译器高... 阅读全文

posted @ 2015-06-30 17:08 Physcal 阅读(888) 评论(0) 推荐(0) 编辑

Word2Vec源码解析

摘要：Reference：http://blog.csdn.net/itplus/article/details/37969519 （Word2Vec解析（部分有错））源码：http://pan.baidu.com/s/1o6KddOIWord2Vec中的Coding技巧1.1 ReadWord()训练语... 阅读全文

posted @ 2015-06-26 17:58 Physcal 阅读(12195) 评论(9) 推荐(2) 编辑

基于Theano的DL的开源小框架：Dragon

摘要：Link：https://github.com/neopenx/Dragon起因最近看了Hinton的Dropout，发现原来的乱代码只能在Softmax层前面加Dropout。索性把整个Theano封装了一遍了。瞄了几眼Github上的Theano的另外一个封装Keras，然后按照自己风格手写了（... 阅读全文

posted @ 2015-06-25 00:16 Physcal 阅读(1820) 评论(0) 推荐(0) 编辑

深度神经网络结构以及Pre-Training的理解

摘要：Logistic回归、传统多层神经网络1.1 线性回归、线性神经网络、Logistic/Softmax回归线性回归是用于数据拟合的常规手段，其任务是优化目标函数：$h(\theta )=\theta+\theta_{1}x_{1}+\theta_{2}x_{2}+....\theta_{n}x_{n... 阅读全文

posted @ 2015-06-14 19:06 Physcal 阅读(49244) 评论(4) 推荐(13) 编辑

词向量概况

摘要：Reference：http://licstar.net/archives/328 （比较综合的词向量研究现状分析）序：为什么NLP在模式识别里面比较难？Licstar的文章开头这么提到：语言（词、句子、篇章等）属于人类认知过程中产生的高层认知抽象实体，而语音和图像属于较为底层的原始输入信号。语音、... 阅读全文

posted @ 2015-06-12 20:56 Physcal 阅读(5422) 评论(1) 推荐(1) 编辑

CNN训练Cifar-10技巧

摘要：关于数据集 Cifar-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar是加拿大政府牵头投资的一个先进科学项目研究所。说白了，就是看你穷的没钱搞研究，就施舍给你。Hinton、Bengio和他的学生在2004年... 阅读全文

posted @ 2015-05-05 23:52 Physcal 阅读(87723) 评论(7) 推荐(10) 编辑

ReLu(Rectified Linear Units)激活函数

摘要：论文参考：Deep Sparse Rectifier Neural Networks(很有趣的一篇paper）起源：传统激活函数、脑神经元激活频率研究、稀疏激活性传统Sigmoid系激活函数传统神经网络中最常用的两个激活函数，Sigmoid系（Logistic-Sigmoid、Tanh-Sigmoi... 阅读全文

posted @ 2015-04-24 12:57 Physcal 阅读(231271) 评论(8) 推荐(20) 编辑

限制Boltzmann机（Restricted Boltzmann Machine）

摘要：起源：Boltzmann神经网络Boltzmann神经网络的结构是由Hopfield递归神经网络改良过来的，Hopfield中引入了统计物理学的能量函数的概念。即，cost函数由统计物理学的能量函数给出，随着网络的训练，能量函数会逐渐变小。可视为一动力系统，其能量函数的极小值对应系统的稳定平衡点。H... 阅读全文

posted @ 2015-04-07 20:34 Physcal 阅读(6568) 评论(0) 推荐(0) 编辑

栈式自动编码器(Stacked AutoEncoder)

摘要：起源：自动编码器单自动编码器，充其量也就是个强化补丁版PCA，只用一次好不过瘾。于是Bengio等人在2007年的 Greedy Layer-Wise Training of Deep Networks中，仿照stacked RBM构成的DBN，提出Stacked AutoEncoder，为非监督学... 阅读全文

posted @ 2015-03-30 17:23 Physcal 阅读(15611) 评论(0) 推荐(0) 编辑

降噪自动编码器（Denoising Autoencoder)

摘要：起源：PCA、特征提取....随着一些奇怪的高维数据出现，比如图像、语音，传统的统计学-机器学习方法遇到了前所未有的挑战。数据维度过高，数据单调,噪声分布广，传统方法的“数值游戏”很难奏效。数据挖掘？已然挖不出有用的东西。为了解决高维度的问题，出现的线性学习的PCA降维方法，PCA的数学理论确实无懈... 阅读全文

posted @ 2015-03-26 22:51 Physcal 阅读(39086) 评论(5) 推荐(7) 编辑

Physcalの大魔導書

某HFUT的蒟蒻，ICT/VIPL的直博狗，SeetaTech的码农，还是当大魔导师好了(=￣ω￣=)。

随笔分类 - 机器学习理论

公告