Python-机器学习8 定义、基本理论、专业术语、scikit-learn框架，鸢尾花数据集

1.学习框架

2.概述

2.1 定义

计算机通过数据和计算获得一定的技巧的过程，即利用经验改善自己系统的性能。（经验---->数据）

2.2 发展

（1）萌芽期：图灵测试提出机器具有智能，跳棋程序的开发创造出“机器学习”一词。

（2）摸索期：k近邻算法出现，计算机可以进行简单的模式识别。决策树算法的出现，ID3算法的出现，加快了算法的运行速度。

（3）崛起期：SVM、AdaBoost、随机森林的出现，

2.3 应用领域

（1）商业：销售数据、客户信息分析，推荐系统。

（2）金融：薪资、股票市场、欺诈检测等。

（3）医疗：检测皮肤癌、分析健康数据。

（4）语言：翻译、语言问答。

（5）计算机视觉：图像处理、美化。

（6）网络：垃圾邮件检测等。

（7）工业：质量管理、故障检测。

（8）生活娱乐：天气预报、自动驾驶、GPS等。

3.基本理论

3.1 基本术语

（1）数据集：是一种由数据所组成的集合，通常以表格形式出现，如上图一个表。

（2）样本/实例：每一行表示一个数据，表示对一个事件或对象的描述，如上面的一行。

（3）特征/属性：每一列反映事件或对象在某方面的表现和性质，如上面的某一列。

（4）特征值/属性值：某一列某一行的取值。

（5）属性空间、样本空间、输入空间：所有属性组成的空间。

（6）模型：描述属性和问题之间关系的数学对象，如根据敲声判断一个瓜是不是好瓜。

（7）学习/训练：从数据中使用算法得到模型的过程。

（8）训练集：拿来训练的。

（9）测试集：拿已经学习好的模型来测试数据集。

（10）验证集：用于在学习过程中对模型进行调整和选择。

（11）标签/标记：描述模型输出的可能值，如是好瓜。（输出空间）

（12）收敛状态：模型已经达到无法改进的状态，达到最好的样子。

（13）预测：新的数据输入到训练好的模型中，以对其进行判断。

（14）泛化能力：模型适用于新样本的能力。

（15）模型评估：检验模型效果的方法。

（16）维数：特征的数目称之为维数。

3.2.算法

4.1监督学习

（1）定义：根据已有的数据集，且数据集是人为标记的，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。（关系---->模型）

（2）分类：分类（Classification）、回归（Regression）

4.2 无监督学习

（1）定义：不知道数据集中数据、特征之间的关系，无标记的，要根据聚类或一定的模型得到数据之间的关系。（模型---->关系）

（2）分类：聚类（Cluster）

5. scikit-learn框架

5.1 数据的加载：

sklearn.datasets.load_名字（[return_X_y]）

5.2 生成数据集

sklearn.datasets.make_blobs(n_samples=,n_features=,.....)

5.3 模型训练和预测

　　（1）scikit-learn的model_selection包含 rain_test_split()方法可以将数据集转化为train_data 和 test_data两个部分。

　　（2）划分完后使用 fit() 方法进行训练模型。

　　（3）训练完后可以用 predict() 方法预测。

5.4 模型评估

　　使用score（）方法

posted @ 2021-10-29 09:19 湘summer 阅读(159) 评论(1) 收藏举报

刷新页面返回顶部

湘summer

Python-机器学习8 定义、基本理论、专业术语、scikit-learn框架，鸢尾花数据集

公告