logistics regression
logistics regression用于解决一些二分类问题。比如(纯假设)网上购物时,网站会判断一个人退货的可能性有多大,如果该用户退货的可能性很大,那么网站就不会推荐改用户购买退费险。反之,如果该用户退货的可能性不大,则可以推荐该用户购买退费险。比如如下数据:
历史该类目退货率,性别,年龄,商品价格,是否新注册用户,商品类别, 发生退货
0.5 ,0 ,20 , 300 ,0 ,8 , 1
0.3 ,1 ,30 , 50 ,0 ,5 , 0
假设以上数据是电商网站总结的一些用户购买行为数据,最后一列是这些数据对应的,用户退货的情况。那么利用logistics regression来解决这类问题就是说,用历史数据带入logistics regression来得到一个模型,这个模型应该能够很好的拟合历史数据,也就是输入上述数据的前6列,能够得出一个结果。这个结果应该和第七列相符合。这样,当出现一个新的数据时,电商网站可以根据模型判断这个数据对应的退货可能性。
为了简化表述,我们把数据抽象成下面的矩阵形式
x11,x12,x13 ... x1n y1
x21,x22,x23 ... x2n y2
...
xm1,xm2,xm3 ... xmn ym
在logistics中,采用的数学模型叫sigmod函数。
y = 1 / [ 1 + e (-z)]
z = w0*xi0 + w1*xi1 + w2*xi2 + ... wn*xin
注意, x本来只有n个属性,但是在算法中我们加上了一个x0这个属性,通常为1. w 是一个和x维度一样的多维向量。 在logistics regression中,我们认为存在一个向量w,把它带入sigmod函数后能够得出一个较准确的类别y.