Softmax回归
1.多分类问题
\(y=argmax_{c=1}^{C}\ f_c(x;w_c)\)
\(f_c(x;w_c)=w_c^T x+b_c,\ c\in \{1,...,C\}\)
学习准则
\(转换为条件概率建模\)
\(p_{\theta}(y=c|x)\)
模型问题
\(已知 f_c(x;w_c)=w_c^Tx+b_c, \ c\in \{1,...,C\},求p_{\theta}(y=c|x)\)
2.Softmax函数
\(对于K个标量x_1,...,x_k\)
\(softmax(x_k)=\frac{e^{x_k}}{\sum_{i=1}^{K}e^{x_i}}\)
\(则利用softmax函数,目标类别y=c的条件概率为\)
\(p_{\theta}(y=c|x)=softmax(w_c^Tx)=\frac{e^{w_c^Tx}}{\sum_{c=1}^{C}e^{w_c^Tx}}\)
\(向量表示\)
\(\hat y =softmax(W^Tx)=\frac{e^{W^Tx}}{1_c^Te^{W^Tx}}\)
3.参数学习
3.1模型:Softmax回归
\(向量表示\)
\(\hat y =softmax(W^Tx)=\frac{e^{W^Tx}}{1_c^Te^{W^Tx}}\)
3.2学习准则:交叉熵
\(-\sum_{y=1}^{C}p_r(y|x)log\ p_{\theta}(y|x),p_r表示real,真实分布\)
\(向量形式\)
\(-y^T\log\ \hat y,y=[I(1=c),I(2=c),...,I(C=c)]^T,one-hot向量\)
3.3优化:梯度下降
\(R(W)=-\frac{1}{N}\sum_{n=1}^{N}x^{(n)}(y^{(n)})^T \log \hat y^{(n)}\)
\(y=[I(1=c),I(2=c),...,I(C=c)]^T,one-hot向量\)
\(\frac{\partial(R(W))}{\partial W} =-\frac{1}{N}\sum_{n=1}^{N}x^{(n)}(y^{(n)}-\hat y^{(n)})^T\)
4.问题
\(如果用softmax做二分类回归,和logistic回归的区别是什么?\)