摘要: 首先,在实际做classification的场景中,经常会遇到只有少量的labeled data而更多的data都是unlabeled 的情况。co-training和self-training这两个算法即是用来解决这样情况的。 下面分别描述这两种算法: 1.Self-training: 用已有的L 阅读全文
posted @ 2018-01-12 07:16 蜜宝家的小兔 阅读(3940) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯学派和概率学派的区别之一是特别重视先验信息对inference的影响,而引入先验信息的手段有“贝叶斯原则”(即把先验信息当作均匀分布看)等四大类。 其中一类是:共轭先验 共轭先验是指,先验分布与似然函数共轭,即同属于同一分布类。 因为,后验分布=先验分布*似然函数 故如果后验分布也会同先验分布 阅读全文
posted @ 2017-07-27 06:26 蜜宝家的小兔 阅读(1258) 评论(0) 推荐(0) 编辑
摘要: 在神经网络中,sigmoid和tanh分别是两个激活函数,用在每个layer输出的时候。 这里对这个两个激活函数做出比较,首先,将两个函数图像画到一张图上面来: sigmod函数: sigmod(a)=1/(1+exp(-a)) tanh函数(正切三角函数),可写成是sigmod函数的一种变形:ta 阅读全文
posted @ 2017-07-19 08:02 蜜宝家的小兔 阅读(3332) 评论(0) 推荐(0) 编辑
摘要: 1. 做classfication 时候一定要将label 取成是balanced的,也就是一比一的比例,因为如果不是一比一的比例的话,举个极端一点的例子:如果pos:neg label目前是9:1的比例,那么在模型学习的过程当中,它就会倾向性的选择将大家都分像9份的那一类(即使全部分过去的话,也有 阅读全文
posted @ 2017-07-16 17:35 蜜宝家的小兔 阅读(125) 评论(0) 推荐(0) 编辑