摘要:
在处理多维特征问题的时候,需要保证特征具有相近的尺度,这有助于梯度下降算法更快的收敛。 以预测房屋价格为例,假设有两个特征,房屋的尺寸和房屋的数量,尺寸的值为 0 2000 平方英尺,而房间数量的值则是 0 5,以两个参数分别为横纵坐标,绘制代价函数的等 高线图能,看出图像会显得很扁,梯度下降算法需 阅读全文
摘要:
https://blog.csdn.net/xiaosongshine/article/details/88392620 阅读全文
摘要:
梯度消失和梯度爆炸: 梯度消失和梯度爆炸可以从同一个角度来解释, 根本原因是神经网络是根据链式求导法, 根据损失函数指导神经元之间的权重经行更新, 神经元的输入在经过激活函数激活, 通常, 如果我们选择sigmoid为激活函数: 通常,若使用的激活函数为sigmoid函数,其导数为: 这样可以看到, 阅读全文
摘要:
https://www.cnblogs.com/skyfsm/p/8451834.html 阅读全文
摘要:
激活函数各有优缺点, 优缺点从各自的函数和导数的图像上都能了解一二 Softmax 和 Sigmoid softmax对应多分类时候的激活函数, sigmoid对应二分类时候. softmax能将向量压缩到一个等维的0~1的概率分布值中,而且, 概率和为1 sigmoid则对应, 将一个数映射到 0 阅读全文
摘要:
先引入一个经典的表,辅助我们, 这个表叫做混淆矩阵 #准确率(Accuracy) 准确率反映了模型模型做出正确预测的比例 计算公式 \(Accuracy=\frac{TP+TN}{TP+TN+FP+FN}\) 准确率假设不同的分类是同等地位的,例如对猫狗洗好进行分类,问题中并没有对猫和狗有特定的侧重 阅读全文
摘要:
Batch Normalization "https://www.cnblogs.com/guoyaohua/p/8724433.html" 有几点需要注意: $x^{(k)}$指的是t层的输入. 也就是t 1层的输出x权重的变换 训练时,在做BN的时候, $E(x)^{(k)}$是mini bat 阅读全文
摘要:
范数 0范数 $L_0$范数表示为向量中非0元素的个数 $$L_0 ||x||_0 = x_i, (x_i \not= 0)$$ 1范数 向量中元素绝对值的和,也就是$x$与0之间的曼哈顿距离 $$L_1 = \sum |x_i|$$ 2范数 $x$与0之间的欧式范数, 也就是向量中的每个数的平方之 阅读全文
摘要:
Spark结构 文章参考自厦门大学子雨大数据课程 Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的 Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(Hive 阅读全文