摘要: 工业界机器学习典型问题: 正负样本分布极不均匀(通常<1:10000),有什么较好的方案构造训练集的正负样本分布?构造后如何解决训练数据与预测的分布不一致? 处理内在不均衡 内在不均衡就是指数据本身特性决定了它的不均衡性。即使获取更多的数据,仍然改变不了数据的不均衡属性。 解决方案: F1 Scor 阅读全文
posted @ 2017-03-01 17:04 合唱团abc 阅读(14809) 评论(0) 推荐(1) 编辑
摘要: Online gradient descent(OGD) produces excellent prediction accuracy with a minimum of computing resources.However, in practice another key considerati 阅读全文
posted @ 2017-03-01 14:51 合唱团abc 阅读(2404) 评论(0) 推荐(0) 编辑
摘要: 过拟合的原因:使用的模型过于复杂,根据VC维理论:VC维很高的时候,就容易发生bias很低,但variance很高的情形. 解决过拟合最常用的方法就是regularization, 常用的有:L1正则, L2正则等.L1正则会使得参数稀疏化, L2正则可以起到平滑的作用, 从贝叶斯理论的角度审视下正 阅读全文
posted @ 2017-03-01 11:50 合唱团abc 阅读(2810) 评论(1) 推荐(1) 编辑