LogisticRgression_python

#coding:utf-8
from numpy import *
def loaddata():
    datamat=[]
    label=[]
    fr=open("testSet.txt")
    for line in fr.readlines():
        arr=line.strip().split()
        datamat.append([1.0,float(arr[0]),float(arr[1])])#其中1.0表示回归方程的初始截距,即x0=1.0
        label.append(int(arr[-1]))
    return datamat,label
def sigmoid(x):
    return 1.0/(1+exp(-x))
def linerre(datamat,label):#梯度上升
    datamatrix=mat(datamat)
    labelmat=mat(label).transpose()
    m,n=shape(datamatrix)
    w=ones((n,1))
    for k in range(1000):
        h=sigmoid(datamatrix*w)#实际输出向量||datamatrix*w当特征较多是,这将是一个很大的矩阵,计算有时会很困能
        err=(labelmat-h)#误差向量
        w=w+0.001*datamatrix.transpose()*err#权值更新
    return w
def classifier(w,inputdata):
    wmatrix=mat(w)
    inputmatrix=mat(inputdata)
    val=sigmoid(inputmatrix*wmatrix.transpose())
    if val>0.5:
        return 1
    else:
        return 0
def randgradient(datamatrix,label):#随机梯度上升
    m,n=shape(datamatrix)
    w=ones(n)
    tm=0.0
    for i in range(m):
        d=sigmoid(sum(datamatrix[i]*w))#单个样本的实际输出
        err=label[i]-d#单个样本的误差
        w=w+0.01*err*datamatrix[i]#更新权值
    return w
datamat,label=loaddata()
print classifier(randgradient(array(datamat),label),[1,1.217916,9.597015])

 

posted @ 2017-06-08 22:04  semen  阅读(260)  评论(0编辑  收藏  举报