PLA感知机及其实现

基础知识：

1、感知机学习的模型

感知机是根据输入实例的特征向量x对其进行二分分类的线性分类模型：

f(x) = sign(w.x + b)

感知机模型对应于输入空间中的超平面w.x + b = 0，也即感知机学习的目的就是：找到一个能够完美划分不同类别的实例点的超平面；

2、感知机学习的策略

感知机的学习策略就是极小化损失函数：

损失函数对应于误分类点到分离超平面的总距离，换句话说，分离超平面被误分类点所吸引，不断向其靠近，最终完成划分任务；

3、感知机学习的算法

首先任意选取一个超平面，然后使用梯度下降法不断极小化目标函数（也就是我们上面的损失函数），直到最终完成划分。

在梯度下降法的过程中，我们每一次都要随机选取一个误分类点，使其梯度下降

具体过程如下：

（1）是任意选取一个分离超平面；（2）是随机选取一个误分类点，这里使用代码实现的时候我们就直接遍历加if判断即可；（3）就是对误分类点使用梯度下降法，减小其梯度；（4）即为不断重复前三步，最终完成划分。

4、算法的收敛性

当训练数据集线性可分时，感知机学习算法是收敛的，感知机算法在训练数据集上的误分类次数满足不等式：

k <= (R/y)^2

也就是说不管我们尝试多少次，总能找到一种完美划分的方法，且最终的结果也并不是唯一的，不同的出事分离超平面，不同的误分类点选取顺序，都有可能对结果产生影响，所以我们有无穷多个解。

代码实现：

# 训练集:

#     vector(第一项是截距项)        label
#     ------------------------------------------
#     [1, 1, 4]                     1          
#     [1, 2, 3]                     1
#     [1, -2, 3]                    1
#     [1, -2, 2]                    0
#     [1, 0, 1]                     0
#     [1, 1, 2]                     0

# 测试集:

#     vector(第一项是截距项)        label
#     ------------------------------------------
#     [1, 1, 1]                     ?
#     [1, 2, 0]                     ? 
#     [1, 2, 4]                     ? 
#     [1, 1, 3]                     ?   

from numpy import *
import matplotlib.pyplot as plt
import operator
import time

# 数据集
def createTrainDataSet():
    trainDataMat = [[1,  1, 4], 
                    [1,  2, 3], 
                    [1, -2, 3], 
                    [1, -2, 2], 
                    [1,  0, 1], 
                    [1,  1, 2]]
    trainClassLable = [1, 1, 1, -1, -1,  -1] # 分类标签，也即权重向量 w
    return trainDataMat, trainClassLable

# 测试集
def createTestDataSet():
    testDataMat = [[1, 1, 1], 
                   [1, 2, 0], 
                   [1, 2, 4], 
                   [1, 1, 3]]
    return testDataMat


# 核心代码PLA感知机算法
def pla(dataMatIn, classLabels):
    # mat函数将数组转化为矩阵，transpose函数将矩阵进行转置
    dataMatrix = mat(dataMatIn) 
    labelMat   = mat(classLabels).transpose()
    m, n = shape(dataMatrix) # 获取矩阵的行、列数 
    weights = ones((n, 1))   # 设置初始权重为 [1 1 1]
    while True:
        Done = True
        for i in range(m):
            if (dot(dataMatrix[i], weights) * labelMat[i] > 0): # dot函数计算矩阵的内积，此时计算yi(w*xi + b) <= 0 是否成立
                continue
            # 如果该点误分类，则梯度下降            
            else:
                Done = False
                weights += (labelMat[i] * dataMatrix[i]).transpose()
        if Done:
            break
    return weights

# 打印感知机划分图像
def plotBestFit(weights):
    dataMat, labelMat = createTrainDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0]
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i]) == 1:
            xcord1.append(dataArr[i, 1])
            ycord1.append(dataArr[i, 2])
        else:
            xcord2.append(dataArr[i, 1])
            ycord2.append(dataArr[i, 2])
    fig = plt.figure()
    ax = fig.add_subplot(111)

    # 画出训练数据集中的点
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')

    # 画出分界线，也即分离超平面
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0] - weights[1] * x) / weights[2]
    ax.plot(x, y)
    plt.xlabel('X1'); plt.ylabel('X2')
    plt.show()

# 判断测试数据集中的向量在分离超平面的哪一边，大于零说明在上面，返回标签1；小于零说明在下面，返回标签-1
def classifyVector(inX, weights):
    if float(dot(inX, weights)) > 0:
        return 1
    else:
        return -1

# 对测试数据集中的向量进行预测分类
def Predict(dataSet, weights):
    predict = []
    for vector in dataSet:
        predict.append(classifyVector(vector, weights))
    return predict

def main():
    trainDataSet, trainShares = createTrainDataSet()
    testDataSet = createTestDataSet()
    
    # 输出最终的分离超平面
    Final_weights = pla(trainDataSet, trainShares)
    print("Final_weights = \n", Final_weights)
    plotBestFit(Final_weights)
    
    # 输出对测试数据集的预测结果
    predictShares = Predict(testDataSet, Final_weights)
    print("predictResult: \n", predictShares)

if __name__ == '__main__':
    start = time.clock()
    main()
    end = time.clock()
    print('finish all in %s' % str(end - start))

输出结果如下：

可以看到分离超平面实现了对训练数据集中向量的完美划分，且对测试集中数据点的预测也是准确的，算法用时0.37s还可以，我们的PLA感知机算法就实现了。

posted @ 2016-09-06 17:37 日天大哥哥阅读(1570) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

日天大哥哥

PLA感知机及其实现

公告