摘要:
1.UDAF定义 spark中的UDF(UserDefinedFunction)大家都不会陌生, UDF其实就是将一个普通的函数, 包装为可以按 行 操作DataFrame中指定Columns的函数. 例如, 对某一列的所有元素进行+1操作, 它对应mapreduce操作中的map操作. 这种操作有 阅读全文
摘要:
文章导读: 1. 熵 2. 联合熵和条件熵 3. 互信息 4. 相对熵 5. 交叉熵 6. 困惑度 7. 模拟信道模型 最近在看《统计自然语言处理》,觉得第二章预备知识里的关于信息论的一些基本概念总结得很不错。虽然对于熵这个词,我接触过很多次,在机器学习里的很多地方也都有涉及到,比如说最大熵模型,决 阅读全文
摘要:
文章导读: 1. 卷积神经网络 2. 卷积神经网络实践 深度神经网络在可以模拟更加复杂的情形,但是在上一章中,我们发现训练深度神经网络的时候会出现梯度消失的问题,从而导致模型训练失败。这一章,将会介绍可以被用在深度学习上的一些技术。 这章的主要内容是介绍一种应用最广泛的深度神经网络:卷积神经网络。我 阅读全文
摘要:
文章导读: 1. 梯度消失问题 2. 是什么导致了梯度消失问题? 3. 复杂神经网络中的梯度不稳定问题 之前的章节,我们利用一个仅包含一层隐藏层的简单神经网络就在MNIST识别问题上获得了98%左右的准确率。我们于是本能会想到用更多的隐藏层,构建更复杂的神经网络将会为我们带来更好的结果。 就如同在进 阅读全文
摘要:
文章导读: 1. 两个前提 2. 单输入单输出的情况 3. 一般情形:多输入多输出情况 4. 使用sigmoid以外的神经元 5. 修正阶跃函数 6.总结 神经网络最令人激动的一个性质,就是它可以实现任意功能的函数。而且是即使对于只有一个隐藏层的神经网络,这个结论依然成立。 大部分神经网络的使用者都 阅读全文
摘要:
文章导读: 1.交叉熵损失函数 1.1 交叉熵损失函数介绍 1.2 在MNIST数字分类上使用交叉熵损失函数 1.3 交叉熵的意义以及来历 1.4 Softmax 2. 过拟合和正则化 2.1 过拟合 2.2 正则化 2.3 为什么正则化可以减轻过拟合问题 2.4 正则化的其它方法 3. 参数初始化 阅读全文
摘要:
文章导读: 1. 一种基于矩阵运算快速计算神经网络输出的方法 2. 关于损失函数的两个假设 3. Hadamard积 - $s\odot t$ 4. 反向传播算法背后的四个基本方程 5. 四个方程的证明(选学) 6. 反向传播算法 7. 反向传播算法的代码实现 8. 反向传播为什么被认为是快速的算法 阅读全文
摘要:
文章导读: 1. 本书内容 2. 手写字体识别 3. 感知机 4. Sigmoid神经元 5. 神经网络的结构 6. 一个用于手写数字识别的简单神经网络 7. 梯度下降学习算法 8. 数字识别神经网络的实现 9. 关于深度学习 深度学习算是现在机器学习领域非常热门的方向了,虽然一直有了解并且简单用过 阅读全文
摘要:
文章导读: 1. Naive Bayes算法 2. Adaboost算法 3. Spark ML的使用 4. 自定义扩展Spark ML 1. Naive Bayes算法 朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了,常用的有Bernoulli和Multinomial两种。在文本分类上经常 阅读全文