final 3
1. Bias-Variance Decomposition
bias:模型真实值与预测值之间的差距(模型本身问题)
variance:由于训练数据不同导致的误差
2. stability
variance小,bias大的模型
同一个数据集产生两个set,同一个training algorithm对其训练;若两个结果很像,则为stable,否则为unstable
stable:KNN,K越大越stable
unstable:decision tree
3. Ensemble methods:把几种方法组合起来
simple ensemble:
a) 少数服从多数
b) a基础上添加weight
mixture of experts:
a) 不同维度用不同方法做
b) 采取不同权重
4. Bagging method
针对unstable模型(low bias, high variance), 降低variance
不训练所有数据,有放回的从全部数据里抽取与原数据相同数量的数据
得到多个训练集,用其训练同一种算法,得到不同的模型,然后采取major vote
即:同一个机器学习算法,仍产生差异化
5. Random Forest
随机性更强,不仅data set是随机的,每个set里选取哪些features也是随机的
6. boosting
针对weak learner(high bias,low variance)效果仅比随机预测好一点
给每一个data增加了一个weight,先训练一个model,下一个model用来解决第一个model中没有解决的问题
对做错的部分,增加weight;做错的地方,减小weight
7. MLP
8. 7中采用sigmoid function是因为求导很简单
a(x) = 1 / (1 + e^-x)
a(x)的导数是a(x)(1-a(x))
td为真实值,od预测值,希望预测与真实差值的平方尽量小,利用这个不断更新w
故而利用error对w求导
9. MLP for classification(loss function)
10. Deep learning---CNNs
1) Conv Layer: window遍历,对应相乘相加,直至遍历结束
但多数情况下不是只有一个channel
原图像的每一层与filter的每一层逐层进行操作,然后每一层加起来只得到一个结果
stride指步长,即filter移动时移动多少
zero-padding:周围补零,使output与input的size相同
output size:
weights per neuron: bias+F*F*3(默认情况下为3)
neurons:output size*output size
connections:neurons*weights per neuron
independent parameters:weights per neuron*number of filter
2) Pooling layer
downsampling,减小size
mean pool/max pool
no independent parameters does this add to the model!!!
3) ReLU Layer(Rectified Linear Unit)
f(x) = max(0, x)
4) FC layer
将卷积层输出拉成一维形式.
11. Dropout
随机禁用一些节点,每一轮采用不同的禁用节点,避免overfitting
12. Loss Function
13. data augumentation
对一个图像进行物理变化,使其可以在不同的情况下也能进行实别
14. unsupervised learning
数据没有label信息
15. cluster analysis
a) hierarchical methods
a.1) K-means: 随机初始化k个中心点,将剩下的点都归到距离最近的中心点中
选取每个cluster的mean值作为新的中心点,不断重复
可以去除outliers,如那些距离中心点太远的
a.2) expectation maximization(EM)
有K个高斯分布,选取一个,产生一个数据点,,不断重复产生set。但是不知道产生数据的高斯分布的means都是什么以及哪个点是由哪个产生的
如两百个学生的身高数据已知,但是不知道学生性别信息
E step中,任选两个数字作为两个性别的mean值,根据mean判断每个数据由两个高斯分布产生的概率:p1/(p1+p2), p2/(p1+p2)
M step中,将概率作为已知值,更新μ1,μ2(前者对男生身高的均值)
对于200个数据,每个数据乘其是男生的概率,相加,再除以这些概率的和得到μ1;同时再乘是女生的概率,相加
新的μ作为新的mean,不断重复
每个数据都有一定概率属于两个cluster,不是一定属于某个cluster
a.3) Hierarchical Clustering
有bottom up以及top down两种形式
bottom up常见有三种方法:Single linkage, complete linkage, average linkage
single linkage即两个cluster之间的距离用两个cluster之间距离最近的两个点表示
complete linkage即用距离最远的两个点表示
average link: 平均值表示
centroid distance:用两个cluster之间的中心点之间的距离表示
对于single link来讲,先找最大的两个点合并,然后其对于本身的距离为1,别的点到其距离为别的店到原始两个点最近的,即更大的(数字代表相似度)
group average:即根据原始的数据,如12与3的关系,则求1 2 3三者之间的数据均找到求均值
想要几个cluster就在对应位置划开;几个cluster最好的确定方法有Elbow method
Elbow method即计算所有点到其中心点的距离的平方求和,将其与number of cluster对应图片画出来,拐点即为所求
或者采用silhouette plot,针对每一点计算a(i),即该点到同一cluster所有点距离的均值
d(i, c)即计算这个点到其他cluster所有点距离的均值,b(i)是其中的最小值
最好的情况是b(i)远大于a(i)
b) partitioning methods
16. PCA
降维的
17. autoencoders
将input dataencoder成features。再decoder成原始data,计算其与真实值之间的loss function,降低loss function,做到信息压缩