1.1 - 机器学习概述

1. ML基本认识

  机器学习是研究AI的一种方法。其从数据中挖掘特征从而学习到一些规律、规则(模型),然后对输入的新数据做出 预测(回归)和判断(分类)。

机器学习主要分为:

        有监督学习:数据有标签,有监督学习分为  分类&回归 两类问题。

        无监督学习:数据无标签,如:聚类等。

        半监督学习:人工标注是一项极其耗时的工程,为了省一部分人工。只对一部分数据打标签,对模型训练也有效果。从而衍生了半监督学习。

强化学习:没有开始的训练数据,机器从环境中主动学习并获得反馈。

2. 数据集表示方法

  通过笛卡尔坐标系中的坐标点来表示样本数据。在 机器学习中的数学:概率论 中,用距离通过映射函数来计算概率值。因此,在笛卡尔坐标系中,可以通过计算样本点间的距离来衡量样本的相似度

常用的表示距离的方法:

    曼哈顿距离(L1范数);

    欧式距离(L2范数);

    切比雪夫距离(L∞范数);

    闵可夫斯基距离(Lp范数);

    余弦距离(将坐标看作原点出发的向量)。

3. Jupyter环境设置

  Jupyter是一个实时交互的机器学习代码运行平台,兼具本文文档的功能。 Jupyter按照cell来划分单元,每个cell可以单独运行,cell中的代码每运行一次就相当于复制当前cell的代码然后放在后面与逆行,因此,多次执行某个cell的代码且cell代码修改了其中某个变量的值,下次运行cell的时候,该变量的值会继承上次cell运行返回的结果。

  Jupyte的优势在于:可以将整个项目代码分成几段分别运行;并且能及时返回结果,实时交互。

  修改Jupyter工具默认的项目文件存储 根路径:

    1)在配置文件中设置Jupyter文件存储 根路径。

    2)在某个环境下,修改Jupyter的 文件存储路径为配置文件中的存储路径。

    3)重启。

 

posted @ 2024-03-18 13:37  橘子葡萄火龙果  阅读(12)  评论(0编辑  收藏  举报