lecture 3

1. Bias-Variance Decomposition

 

irreducible error无法被减小,而reducible error可以通过对model的调整将其最小化

2. 一般情况下而言,model越复杂,bias越小,而variance越高,故而我们要找到一个平衡使MSE最小

3. categorical variables

indicator变量指那些取值为0或1的变量,如将服用药剂以及不服用药剂的病人分成两种情况讨论

4. 三种方法对简化model的复杂性

a) subset-selection,大集合分散成小集合,每个小集合都有自己的model

找到最主要的features,去掉冗余的部分,这个步骤叫做stepwise regression(三个贪心算法可以实现):

aa. 从没有variable开始,一步步加入影响最大的variable

ab. 从全部variables都在开始,一点点去掉影响最小的

ac. 一点点尝试每一个variable保留或者删除

b) shrinkage,将不重要的系数设置为0,只关注重要的

c) dimensionality-reduction,将点投影到较低纬度空间中

5. classification分为两类

a) generative learning algorithm:按照类别分析model

b) discriminative algorithm:focus on decision boundary

 

 

 

 

 6. 算法需要在学习前将全部的training data准备好:batch learning或offline learning

如果在新的data加入后还能继续学习教online learning

7. 如果model有固定数量的parameters,则为parametric;若parameters的数量随着training data的数量增加,则为non-parametric,更加灵活

8. deduction:推论,从整体情况预测某一现象;

consequences:归纳,从特定情况推断整体

9. cross-validation

用validation set得到一些特定parameter

a) holdout method: 直接从中间分开,记住train test之间是独立的

b) leave-one-out cross validation(LOOCV): 每个iteration中选择一个

c) K-fold cross validation: 分成K份

b c区别?

10. data types

a) numerical--categorical(not numbers)

b) irrelevant: 数字或string,与output无关

nominal:不同类别之间没有数值关系的离散值(如动物类型)

binary:只有两个可能性

ordinal:可以排序的离散整数,但无法定义两个数字之间的相对距离

count

time:周期性重复的连续数据形式(天,周) 

interval:我们可以对两个值之间的差距进行测量的数据

11. binary classification task在binary classification中,我们希望将给定集合的数据分为两组,通常一组为positive一组negative,有时这些组同等重要,有时某一类对错误的容忍度会更高

12. evaluation metrics

前面的true或者false表示预测结果是否正确,后面的positive或者negative代表预测的结果;也称为confusion matrix

13. classification accuracy

 

 14. 其他evaluation metrics

 

 除了上述两种方法还有F1,对于F1而言,precision与recall被赋予了同等重要性,有些时候是不允许,故而我们需要自行判断什么最重要

 

 最主要的方法之一是AUC-ROC

 

 最好的model就是AUC=1,越靠近越好;越靠近0越不好,或理解为弧线下的面积越大越好

posted on 2020-02-25 19:10  Eleni  阅读(161)  评论(1编辑  收藏  举报

导航