摘要:
BGD(batch gradient descent) 遍历完所有数据,计算一次损失函数,更新一次梯度。 计算量大,速度慢,不支持在线学习。 SGD(stochastic gradient descent) 看一个数据,就计算一次损失函数,更新一次梯度。 速度快,收敛性能不太好,可能在最优点附近震荡 阅读全文
摘要:
对于同一个损失函数值,可以对应很多种不同的参数,甚至在高纬度下,极小值和极大值都很接近,所以即使是很好优化过的模型,也可能会对应多个不同的参数组合,很多组合都未必是数值稳定的。而且因为参数的安慰更自由,可以得到很小的训练误差,往往都不具有很好的泛化能力。 这个时候加入一个约束项,这个约束项计算之后, 阅读全文
摘要:
思想: 使用队的思想,将每一层的节点放入队列中,依次弹出,同时将其children放入队列。 c++ 或者:(做了一些小改动) 阅读全文