使用sklearn中的Adaboost分类器来实现ORL人脸分类

使用sklearn中的Adaboost分类器来实现ORL人脸分类

前言:博主上网浏览使用Adaboost实现人脸分类时,发现并没有分类,大部分全都是关于人脸识别检测的,并没有实现对某个人的精准分类(例如,这个人叫什么名字),有关ORL识别的,大多是用PCA降维或者SVM实现的,也没有用Adaboost的,故因此写了个随笔。

算法原理

算法过程:

假设我们有个二分类训练数据集T={(x1,y1),...,(xN,yN)},yi∈{−1,+1}.

  • 1)在刚开始,我们让每个变量xi都有相同的权重,也就是说,刚开始每个样本在基分类器中的作用相同。

    ​ Dj = (wj1,wj2,…. wji,…. wjN) wjN = 1/N

    Dj表示权重分布的向量,其中j表示当前是第一轮因为后面还要进行很多轮学习,每次都会改变这个分布。wji表示第j轮对应的第xi变量

  • 2)对 m = 1 , 2 , . . . , M ,共计M个基分类器 进行以下步骤:

    ①:学习得到基本分类器Gm(x)

    ​ 使用具有权值分布Dm的训练数据集进行学习,得到基本分类器Gm(x),Gm(x)可以根据输入给出 +1 或 -1 的输出

    ②:计算单个基分类器的分类误差率em

    ​ em = i=1N wmi I(Gm(xi) yi)

    这个公式什么意思呢:对于第m轮的误差 em,有对应xi对应的权重wmi,I 是指示函数,当后面括号里的式子成立就取1,不成立就取0, i = 1 ,2,…N 所有的xi 所以 em 就是把所有分类错误的样本权重加起来,如果初始权重相等,那么5个样本分错2个,错误率就是0.4,如果权重是[0.5,0.1,0.1,0.1,0.1,0.1],而权重为0.5的样本分错了,最后错误率就是0.5。因此这个设计使得,将权重高的样本分类正确能显著降低分类误差率。

    ③:计算 Gm(x) 的分类器投票权重αm(即在最终结果所占的重要性)

    假设em = 0.3,即分类误差较小,错误率较小,则,α较大。

    对于二分类问题,错误率超过0.5的话,只要进行简单的完全反转就可以使其降到0.5以下。举例来说,若 分类结果为 [1,1,1,-1] 错误率0.75,那么只要改成 [-1,-1,-1,1] 错误率就只有0.25了。(另一种想法是随机分类的错误率是0.5,弱学习器虽然弱,正确率也是要略高于随机分类的。

    ④:更新训练集的权重分布

    对于第m+1轮:

    wm+1,i = wmieαmyiGm(xi)/Zm

    其中,Zm=i=1NeαmyiGm(xi)

  • 得到最终分类器

代码实现

实验平台:kaggle 在线notebook kaggle具有不用配环境,有大量在线公共数据集,省去了很多麻烦

ORL数据集

我们采用公共数据库,进行算法实现。

选取ORL人脸数据库作为实验样本,总共40个人,每人10幅图像,图像大小为 112*92 像素。图像本身已经经过处理,不需要进行归一化和校准等工作。实验样本分为训 练样本和测试样本。首先设置训练样本集,选择40个人前6张图片作为训练样本,进行训练。然后设置测试样本集,将40个人后4张图片作为测试样本,进行选取识别。

该数据集来源:https://www.kaggle.com/datasets/jagadeeshkasaraneni/orlfaces

具体代码:

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

输出:/kaggle/input/orlfaces/ORL_faces.npz

orlfaces = np.load("/kaggle/input/orlfaces/ORL_faces.npz")
orlfaces.files

输出:['testY', 'testX', 'trainX', 'trainY']

该数据集中的训练集和测试集已经给我们划分好了 训练集60% 测试集40%

print(orlfaces['trainX'].shape)
print(orlfaces['testX'].shape)

输出:(240, 10304)
(160, 10304)

240是指总共有24个人的图片,每个人有10张,所以是240
测试集共有16个人,因此第一维的值为160
112 * 92 = 10304,即我们要的图片是112 * 92的,他放在同一维度了,所以是10304

X_train = np.reshape(orlfaces['trainX'], (240, 112, 92))
Y_train = orlfaces['trainY']
X_test = np.reshape(orlfaces['testX'], (160, 112, 92))
Y_test = orlfaces['testY']
print(Y_train.shape)
Y_train

输出:
(240,)

array([ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4,
4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5,
5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7,
7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8,
8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9,
9, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 11,
11, 11, 11, 11, 11, 11, 11, 11, 12, 12, 12, 12, 12, 12, 12, 12, 12,
12, 12, 12, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 14, 14,
14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 15, 15,
15, 15, 15, 15, 15, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16,
17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 18, 18, 18, 18, 18,
18, 18, 18, 18, 18, 18, 18, 19, 19, 19, 19, 19, 19, 19, 19, 19, 19,
19, 19], dtype=uint8)

我们只展示其中3张图片:

## import matplotlib.pyplot as plt
%matplotlib inline

def show_images(images) -> None:
    n: int = len(images)
    for i in range(10):  # 图片太多了,展示10张图片算了吧   否则这里填 range(n)
        plt.figure()
        plt.imshow(images[i])

show_images(X_train)

输出:

多余图片省略...

from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score


# 假设X_train和y_train是训练样本和标签,X_test和y_test是测试样本和标签
# 这里需要根据实际的图像数据来加载和预处理

# 初始化Adaboost分类器
ada_clf = AdaBoostClassifier(n_estimators=200,learning_rate = 0.1, random_state=42)   



# 训练模型
ada_clf.fit(X_train.reshape(-1,112*92),Y_train)    # Adaboost分类器要求X_train维度 <= 2

# 预测测试样本
Y_pred = ada_clf.predict(X_test.reshape(-1,112*92))

# 计算准确率
accuracy = accuracy_score(Y_test, Y_pred)
print(f"识别准确率: {accuracy:.2f}")

输出:
识别准确率: 0.76

print(Y_test,Y_pred)

我们可以将预测Y和真实Y打印出来,进行比较,准确率为0.76

我们可以调整n_estimators,learning_rate , random_stat取值,来提升准确率:

  • n_estimators:这个参数指定了要使用的弱分类器的数量。n_estimators的值越大,意味着更多的弱分类器会被用来构建强分类器。这可能会导致更好的性能,但也会增加模型的复杂度和训练时间。
  • learning_rate:这个参数是每个弱分类器对最终预测的贡献率。在AdaBoost算法中,每个弱分类器的权重与其准确性成比例。learning_rate参数控制这个比例的大小。较小的learning_rate`意味着每个弱分类器对最终结果的影响较小,可能需要更多的弱分类器来达到相同的效果。
  • random_state:这个参数用于控制随机数生成器的种子,以确保结果的可重复性。设置random_state`可以确保每次运行代码时,只要输入数据不变,得到的结果都是相同的。这对于调试和实验是非常重要的,因为它允许研究人员比较不同模型或参数设置的效果。

参考

https://blog.csdn.net/codelady_g/article/details/122571189
https://www.kaggle.com/code/jagadeeshkasaraneni/orlfacerecognition/notebook

posted @   Tanگگ  阅读(184)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· Trae初体验
  1. 1 原来你也在这里 周笔畅
  2. 2 世间美好与你环环相扣 柏松
  3. 3 起风了 吴青峰
  4. 4 极恶都市 夏日入侵企划
起风了 - 吴青峰
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

作词 : 米果

作曲 : 高橋優

编曲 : 刘胡轶/貢多杰

制作人 : 刘胡轶/吴青峰

配唱制作人 : 刘胡轶

乐器监制 : 刘胡轶

吉他 : 胡晨

贝斯 : 甯子达

弦乐录音棚 : 中国剧院录音棚

录音工程师 : 倪涵文/李游/李杨/邢铜/韩宽/李巍

录音监制 : 倪涵文/李游

混音&母带工作室 : OKmastering studio

混音&母带工程师 : 全相彦

制作协力 : 刘西洋

制作发行 : 智慧大狗 × 天才联盟

出品人 : 张葛

监制 : 崔恕/王明宇

弦乐监制 : 李朋

弦乐 : 国际首席爱乐乐团

鼓(打击乐):祁大为

和音编写&演唱:鱼椒盐

人声&吉他&鼓(打击乐)录音棚:55Tec studio

我曾将青春翻涌成她

我曾将青春翻涌成她

也曾指尖弹出盛夏

心之所动 且就随缘去吧

这一路上走走停停

这一路上走走停停

顺着少年漂流的痕迹

迈出车站的前一刻

竟有些犹豫

不禁笑这近乡情怯

不禁笑这近乡情怯

仍无可避免

而长野的天

依旧那么暖

风吹起了从前

从前初识这世间

从前初识这世间

万般流连

看着天边似在眼前

也甘愿赴汤蹈火去走它一遍

如今走过这世间

如今走过这世间

万般流连

翻过岁月不同侧脸

措不及防闯入你的笑颜

我曾难自拔于世界之大

我曾难自拔于世界之大

也沉溺于其中梦话

不得真假 不做挣扎 不惧笑话

我曾将青春翻涌成她

我曾将青春翻涌成她

也曾指尖弹出盛夏

心之所动 且就随缘去吧

逆着光行走 任风吹雨打

短短的路走走停停

短短的路走走停停

也有了几分的距离

不知抚摸的是故事 还是段心情

也许期待的不过是 与时间为敌

再次看到你

微凉晨光里

笑得很甜蜜

从前初识这世间

从前初识这世间

万般流连

看着天边似在眼前

也甘愿赴汤蹈火去走它一遍

如今走过这世间

如今走过这世间

万般流连

翻过岁月不同侧脸

措不及防闯入你的笑颜

我曾难自拔于世界之大

我曾难自拔于世界之大

也沉溺于其中梦话

不得真假 不做挣扎 不惧笑话

我曾将青春翻涌成她

我曾将青春翻涌成她

也曾指尖弹出盛夏

心之所动 且就随缘去吧

晚风吹起你鬓间的白发

晚风吹起你鬓间的白发

抚平回忆留下的疤

你的眼中 明暗交杂 一笑生花

我仍感叹于世界之大

我仍感叹于世界之大

也沉醉于儿时情话

不剩真假 不做挣扎 无谓笑话

我终将青春还给了她

连同指尖弹出的盛夏

心之所动 就随风去了

以爱之名 你还愿意吗

点击右上角即可分享
微信分享提示