机器学习个人作业
对课程的学习心得做一个小结|学习笔记
模式识别
- 一般由特征提取、回归器两模块组成
- 大致分为回归与分类两种形式
- 对于输入的待识别模式,根据已有的知识进行判别决策,输出其回归值或所属类别
机器学习
- 通过一定量的训练样本,来学习模型的参数,有以下几类:
- 有监督式学习:训练样本给定真值
- 无监督式学习:训练样本不给真值,难度较大,用于聚类、图像分割等
- 半监督式学习:仅给定一部分训练样本的真值,用于网络流数据等
- 强化学习:真值滞后反馈,适用于需要累积多次决策才知道结果好坏的任务
分类器
MED分类器
- 基于欧式距离的分类器,欧式距离 \(d(x1,x2)=(x2-x1)^{T}*(x2-x1)\)
- 判别方法: \((x-μ_{1})^{T}(x-μ_{1})<(x-μ_{2})^{T}(x-μ_{2})? C1类 : C2类\)
- 受特征的量纲、分布不同的影响,易导致分类错误,一般不直接用欧式距离进行分类
MICD分类器
- 基于马氏距离的分类器,马氏距离 \(d(x1,x2)=(x2-x1)^{T}Σ_{x}^{-1}(x2-x1)\)
- 判别方法:\((x-μ_{1})^{T}Σ_{x}^{-1}(x-μ_{1})<(x-μ_{2})^{T}Σ_{x}^{-1}(x-μ_{2})?C1类:C2类\)
- 针对欧式距离出现的问题,对特征进行解耦与白化,转化后的点间距离为马氏距离
- 消除了特征间的相关性并使特征具有相同方差,从而使其不受量纲和分布的影响,提高分类准确度
- 但在均值相等时,倾向于归于方差较大的类
MAP分类器
- 基于后验概率的分类器,后验概率 \(p(C_{i}|x)=\frac{p(x|C_{i})p(C_{i})}{p(x)}\)
- 判别方法:\(p(x|C_{1})p(C_{1})>p(x|C_{2})p(C_{2})?C1类:C2类\)
- 选择后验概率最大的类作为判别结果,即最小化概率误差
贝叶斯分类器
- 由于某些场景中,决策失误付出的实际代价不一样
- 因此在MAP分类器的基础上,引入决策风险的概念,即对每种决策失误赋予对应的权值
- 决策动作\(α_i\)的决策风险\(R(α_{i}|x)=Σ_{j}λ_{ij}p(C_{j}|x)\),其中\(λ_{ij}\)表示将真值类别属于j类的样本归于i类的决策的损失
- 对每个样本均归类于其决策风险最小的类别,可使损失期望之和最小化
- 判别方法:\(R(α_{i}|x)<R(α_{j}|x)?C_i类:C_j类\)
KNN分类器
- 同样基于MAP分类器,但假设观测似然概率基于KNN估计
- 由KNN估计,\(p(x|C_i)=\frac{k_i}{N_iV},p(x)=\frac{k}{NV}\)
- 又\(p(C_i)=\frac{N_i}{N}\)
- 故\(p(C_i|x)=\frac{p(x|C_i)p(C_i)}{p(x)}=\frac{k_i}{k}\)
- 因此,对于测试样本x,我们找到与其距离最近的k个样本,其中哪个类别的样本最多,就将x归于那一类。即选择最大的\(k_i\),使得后验概率最大。
参数化方法
最大似然估计
- 求 \(θ_{ML}\) 使似然函数 \(\prod_{n=1}^{N}p(x_{n}|θ)\) 最大
- 一般可采用求导数为0点的方法,得到使似然函数取得最大值的\(θ_{ML}\)
- 参数θ被看作确定值,取值为 \(θ_{ML}\)
贝叶斯估计
- 相对于最大似然估计中参数θ是一个确定值,贝叶斯估计将θ也看作随机变量来估计
- 因此需要求参数θ的后验概率\(p(θ|D_{i})=\frac{p(D_{i}|θ)p(θ)}{p(D_{i})}=α\prod_{n=1}^{N_{i}}p(x_{n}|θ)p(θ)\)(在认为特征间满足独立同分布(iid)时有后一个等式,其中α为归一化因子)
- 再求观测似然关于θ的边缘概率:\(p(x|D_{i})\)=\(\int_{θ} p(x|θ,D_{i})\)=\(\int_{θ} p(x|θ)p(θ|D_{i})\)
- 随着样本个数的增加,贝叶斯估计越趋于真实的观测似然分布
非参数化方法
KNN估计
- 不知道概率分布形式的情况下,估计模式x的概率密度,即以x为中心,在极小区域R内的概率密度函数p(x)
- 设P是任意模式落入R的概率,则有k个样本落入R的概率\(p(k)=C_{N}^{k}P^{k}(1-P)^{N-k}\)
- 由E(k)=NP,N非常大时,有k≈NP,故P≈\(\frac{k}{N}\)
- 设R的区域体积为V,则P≈p(x)V,故\(p(x)≈\frac{P}{V}=\frac{k}{NV}\)
机器学习等人工智能领域的前沿技术介绍、展望、应用
AI云视频
- AI云视频制作,就是利用AI技术,通过文字转视频的方式,实现线上云自动化视频制作。通俗来讲,只需上传文字脚本,系统就可以基于文字内容的关键字、人名、事件等信息解析,从而自动匹配相关视频素材,快速生成视频。
- 此外,在此基础上,剪辑师还可根据需求在线上直接进行编辑剪辑。
- AI云视频制作的逻辑很简单,它是媒介进步的产物。媒介从最开始的文字到图片,然后到‘文字+图片+语音+视频’,就相当于从最初一维平面的文字、语音,再到二维的图片,然后再到三维的视频,再到四维VR的发展更迭
- 受这次疫情影响,AI云视频制作行业将会有两大发展创新:一、在线协同与协作;二、灵活用工。这次疫情期间,慧川智能业务得到成倍提升,团队AI云视频制作软件“智影”,现有2000-3000人在线协同进行云视频制作,使用者都是创客。
- 截至目前,智影已服务客户近40家,类型包括媒体、教育、电商、餐饮及其它一些垂直行业,如梨视频、人民日报、新京报、央视等。
AutoML
- 随着概念的普及,科技公司对人工智能的要求越来越高,成本、准确度、效率都影响着人工智能能否落地融入日常的使用中。对人工智能应用的快速增长也进而催生了对影响人工智能水平的关键要素——机器学习方法的需求。自动化机器学习方法AutoML应运而生。
- 2017 年 5 月,谷歌在 I/O 大会上发布了 AutoML,他们将 AutoML 应用到了深度学习的图像识别和语言建模的两大数据集中,他们提供的 Cloud AutoML 和 Google NAS 算法结合,把完整的机器学习工作做成了云端产品,用户只需要提供数据,Cloud AutoML 将自动构建深度学习模型。换言之,AutoML想要做到的,正如其名:自动化机器学习。
- 传统的AI模型训练往往要经历特征分析、模型选择、调参、评估等步骤,这些步骤需要经历数月的时间,如果完全没经验,时间会更长。AutoML虽然也需要经历这些步骤,但是通过自动化的方式,可以减少这些步骤的时间。
- 在2018年谷歌云全球NEXT大会上,李飞飞宣布,谷歌AutoML Vision进入公共测试版,并推出了两款新的AutoML产品:AutoML Natural Language和AutoML Translation。这个名为Cloud AutoML的宏大项目浮出水面之时,被业内称为“Google Cloud发展的战略转型”——一直以来面向机器学习人工智能开发者的Google Cloud,这次将服务对象转向了普罗大众。只需在系统中上传自己的标签数据,大能得到一个训练好的机器学习模型。整个过程,从导入数据到标记到模型训练,都可以通过拖放界面完成。
- 此外,旷视原创自研的人工智能算法平台Brain++也集成了行业领先的AutoML技术,对深度学习算法的各个关键环节进行自动化的设计、搜索和优化。
- 相比于市场上的AutoML技术,旷视的AutoML技术有以下优势:
- 计算代价小。传统的AutoML技术常常需要多次训练模型甚至会遍历部分模型空间,计算代价巨大。旷视的AutoML技术以one-shot方法为核心,只需训练一次即可得到整个模型空间的刻画,大大减小了计算代价,只是平常训练代价的1-3倍。
- 应用范围广。旷视的AutoML技术提供了一套完整的解决方案,覆盖了大部分业务,包括活体检测、人脸识别、物体检测、语义分割等。
- 部署方便。旷视的AutoML技术涵盖了数据处理、模型训练、模型压缩、模型量化等流程,自动处理从数据到落地。
- 精度高。旷视的AutoML技术在诸多视觉任务上,超过人类手工设计,达到了业界最优。
以上信息主要参考亿欧网相关资讯
我国在AI领域的先进与不足
- 在论文产出上: 中国人工智能论文总量和高被引论文数量都是世界第一。中国在人工智能领域论文的全球占比从 1997 年 4.26% 增长至2017 年的 27.68%,遥遥领先其他国家。高校是人工智能论文产出的绝对主力,在全球论文产出百强机构中,87家为高校。
- 在专利申请上: 中国专利数量略微领先于美国和日本,国家电网表现突出。中国已经成为全球人工智能专利布局最多的国家,数量略微领先于美国和日本,而中美日三国占全球总体专利公开数量的 74%。
- 在人才投入上: 中国人工智能人才总量居世界第二,但是杰出人才占比偏低。
- 从发展质量来看,中国的人工智能发展还远未达到十分乐观的地步。中国的优势领域主要体现应用方面,而在人工智能核心技术领域,如硬件和算法上,力量依然十分薄弱,这使得中国人工智能发展的基础不够牢固。中国的人工智能技术发展缺乏顶尖人才,与发达国家特别是美国的差距还十分明显。
- 从参与主体来看,中国人工智能企业的知识生产能力亟待提升。科研机构和大学是目前中国人工智能知识生产的主要力量。相比国外领先企业,中国企业作为一个群体的技术表现还比较逊色,在人工智能专利申请上落后于国内高校和科研院所。即使是被公认为人工智能巨头的百度、阿里巴巴、腾讯(BAT) 等企业,在人才、论文和专利方面也还没有突出的表现,而它们的美国对手 IBM、微软、谷歌等企业在每项指标的全球企业排名中均名列前茅。
以上数据主要参考知乎等相关主题论坛