机器学习（05）——主要概念理解

机器学习的专业术语非常多，不需要一开始理解所有的专业术语，这些术语会随着对机器学习的深入，会慢慢理解，水到渠成。

不过在学习的过程中，有一些概念必须要了解，有助于后续的学习与理解，需要了解的核心概念有：监督学习、无监督学习、模型、策略、算法等。

监督学习

监督学习，指的是学习的数据与后续测试的数据，都有答案（标签）。

比如说，我们自己的相片集，里面每个人我们都知道是谁并可以标识出来，给机器学习时，我们将每个单人照和对应的名字提交给机器学习模型，机器学习模型完成学习以后，我们继续提交新的相片（单人或多人的），模型直接输出照片中每个人的名字。而对这类有标准答案的数据集的学习，就是有监督学习。

监督学习主要用来处理分类与回归两类问题。

分类：比如前面对相片的学习，输出的是相片中人物对应的名字标签，这个名字标签可以理解为分类的类别名称。百香果的酸与甜、人的性别男与女等这些离散的类别，都是机器学习中分类算法处理的目标。
回归：回归类算法主要是用来预测连续值的变化。比如预测一个人工作年限与收入的变化；网站每日访问量（PV值）变化；广告投放与新增用户、消费（充值）的关系变化等等，这类数据类型的增减变化，就是回归算法预测的目标。

监督学习常用算法包括：K最近邻算法、朴素贝叶斯算法、线性回归算法、逻辑回归算法、决策树算法、神经网络算法、支持向量机算法、因子分解机算法等

无监督学习

无监督学习，指的是通过对数据的统计、分析、分类等方法处理后，从中发现数据本身的自有规律，从而提取出对应的类别、知识或模型的学习方法。可以简单理解为，数据没有标准答案，甚至我们都不知道里面的答案，只知道有一堆数据，需要运行算法自动对这些数据进行各种分类处理，帮助我们找出规律（分类类别）的过程。

无监督学习主要概念：

聚类：在无监督学习中，将数据集分成由类似的对象组成多个类的过程称为聚类。

比如DNA，每个个体都有相似与独特的地方，想要了解DNA中每个基因的作用，就可以使用无监督学习进行学习与分析，将具有不同类型或特特征的人聚集到一块，然后根据通过对这些人的共同点进行分析，从而得出特定基因的作用。同样，无监督学习可以应用到广告系统、推荐系统、新闻分类等各类系统中，面对海量的数据，从中找出不同的类型特征，帮助我们更快速的找到数据的特征与共性，从而让数据发挥更多更重要的作用。

无监督学习常用算法包括：K均值算法、最大期望算法、感知机算法、主成分分析算法、奇异值分解算法等。

半监督学习

半监督学习是监督学习与监督学习结合的一种方法，指的是将有标签数据和无标签数据一起提供模型学习的方法。

我们都知道人力成本是最贵的，如果需要对数据都打上标签，所花费的人工成本与时间成本是很可观的，况且有些数据我们也不清楚它们的规律无法添加标签。而半监督学习，可以将已知的有价值的数据先打上标签，跟无标签数据一起给机器进行学习，机器训练并输出结果，我们可对结果打上新的签标后继续提供给机器训练，从而提升预测结果，当然，如果标签标记不准确，也可能会误导训练模型，得出错误的结论。

无监督学习常用算法包括：协同训练算法(Co-Training)和转导支持向量机算法。

机器学习的三要素：模型、策略和算法

机器学习由模型、策略和算法组成。模型用于作出决策，策略用于评价决策，算法用于修正模型。

模型

简单的理解，指的是模子。

百度百科有两个解释我觉得很贴切：

人们依据研究的特定目的，在一定的假设条件下，再现原型（antetype）客体的结构、功能、属性、关系、过程等本质特征的物质形式或思维形式。
对研究的实体进行必要的简化，并用适当的变现形式或规则把它的主要特征描述出来。所得到的系统模仿品称之为模型。

机器学习中的模型，就是为了预测和分析指定的目标，运行已知的策略和算法，所构建的学习统计模型，通过对数据的学习（统计分析和找出其概率分布规律），最终能对目标进行准确预测。

策略

在百度百科中解释为：

策略，指计策；谋略。一般是指可以实现目标的方案集合；根据形势发展而制定的行动方针和斗争方法.

在机器学习中的策略，指的是实现模型方案集合的最优解。要实现同一个目标（模型），有无数种解决方案，而不同的解决方案各有优劣，在监督学习中引入了损失函数，来找出最优化的模型。

算法

在百度百科中解释为：

算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。

算法简单理解，就是计算方法。在机器学习中，用什么样的计算方法，来帮助机器学习模型和策略，快速、高效、准确的计算出结果。在海量的数据与几何级复杂度的数据中，找出数据分布规律和概率，也是相当困难的，而机器学习算法模型中，提供了梯度下降、降维等算法，来求解出最优解，减少过拟合等各种问题。

算法项目的两个脉络

（图片来自：https://www.imooc.com/read/50/article/974）

问题线：业务问题 -> 机制问题 -> 模型问题

评估线：长期跟踪 <- AB实验 <- 模型评估

算法工程师对模型直接负责，对整个项目要有大局观

项目 -> 解决业务问题

例如：业务运营部门希望提升业务收入

业务问题 -> 分析拆解，找出关键指标 -> 得到解决方案（公式）-> 确定可控与不可控因素

指标1：提升新增用户量 = 渠道数 * 广告曝光量 * 用户转化比率 = 加大渠道投入
    可控因素：渠道数量与广告曝光量（广告费）
    不可控因素：用户转化比率
    待分析问题：各渠道用户转化率差别？渠道推广投入的产出比盈亏状况？广告投放精准度与效果如何确认？相同渠道不同时间段投放广告，用户转化率变化？不同渠道同一时间段投放广告用户转化率有什么不同？视频广告与图文广告对用户转化率的影响？不同版本以及这些版本异常报告数量对用户转化率的影响？不同品牌用户转化率？不同机型用户转化率？是否存在刷量问题（新增用户的IP、机型、活跃变化、留存变化、在线时长、用户行为漏斗分析、充值转化比率……等问题的监控）？……
指标2：提升用户留存
指标3：提升用户充值比例
……

不可控因素 -> 如何变为可控？-> 建立机器学习预测分析模型 -> 什么算法模型适合当前问题？怎么设计和得出算法公式？为什么这个模型能对数据进行预测？

建立机器学习模型 -> 模型预测准确性？-> 算法层是否正确，对模型进行综合评估，确定预测模型正确率指标 -> 开展AB实验进行验证 -> 通过同比、环比等多项指标，评估推荐结果正确性 -> 全量推广，长期跟踪效果