机器学习---那些不得不说的概念
1、回归模型与分类模型有哪些相同点和异同点?
回归问题通常是用来预测一个值,是对真实值的一种逼近预测
分类问题是用于将事物打上一个标签,通常结果为离散值。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的
相同点:都属于监督学习,都有特征和标签
2、pandas中loc iloc 区别?
loc 基于行标签和列标签名称(x_label、y_label)进行取值,包含头尾;
iloc 基于行索引和列索引(index,columns)取值,支持切片操作,包含头不含尾。
3、k-means的参数有哪些?init 、 n-clusters 、 最大迭代次数、n-init、 课件020
# init='k-means++':初始聚类中心(尽可能远),也是默认值
# init:有三个可选值:’k-means++’, ‘random’,或者传递一个ndarray向量。
# 此参数指定初始化方法,默认值为 ‘k-means++’
# n_clusters:整形,缺省值=8 (生成的聚类数,即产生的质心(centroids)数)
# n_init:整形,缺省值=10 ,用不同的质心初始化值运行算法的次数,选出最优结果。
4、ROC曲线有哪4个点?四个点代表着什么?
点(0,1):即FPR=0, TPR=1,意味着FN=0且FP=0,将所有的样本都正确分类。
点(1,0):即FPR=1,TPR=0,最差分类器,避开了所有正确答案。
点(0,0):即FPR=TPR=0,FP=TP=0,分类器把每个实例都预测为负类。
点(1,1):分类器把 每个实例都预测为正类。
总之:ROC曲线越接近左上角,该分类器的性能越好。而且一般来说,如果ROC是光滑的,那么基本可以判断没有太大的 overfitting
5、什么是adboost
提升模型的效果,对决策树而言,防止过拟合
强分类/回归器(可做回归和分类)
6、列举五种数据预处理方法?
均值移除、范围缩放、归一化、二值化、独热编码
7、列举出两种聚类算法?
① 层次聚类算法简
② DBSCAN聚类算法
③ K-Means聚类算法
8、什么是网格搜索,什么是交叉验证?
网格搜索:也叫穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。
交叉验证:就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。目的是为了让模型评估更加准确可信
9、什么是凝聚层次聚类?什么是分裂层次聚类
层次聚类,顾名思义,就是一层一层的进行聚类。层次聚类算法有两种:自下而上的算法和自上而下的算法。
凝聚层次聚类算法:在自下而上的算法中,刚开始每个数据点(即每个叶子)都被看成一个单独的集群,然后将这些集群不断的合并, 直到所有的集群都合并成一个巨型集群,这种自下而上的合并算法也叫做凝聚层次聚类算法。
分裂层次聚类算法:在自上而下的算法中,刚开始所有的叶子被当做一个巨型集群,然后对这个集群进行不断的分解,直到 所有的集群都变成一个个单独的数据点,即巨型集群被分解成单独的叶子节点,这种自上而下的的分解算法也叫做 分裂层次聚类算法。
10、解释正阳性,假阴性,正阴性,假阳性.
TP 正阳性:预测为正,实际也为正
FP 假阳性:预测为正,实际为负
FN 假阴性:预测为负,实际为正
TN 真阴性:预测为负,实际为负
11、解释一下评分指标的基本概念,各种模型使用的评分指标
评价一个模型好坏的标准。
分类模型的评估指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、 F1值(F1-Measure)、混淆矩阵、ROC曲线。
拟合的评估指标:平均绝对误差MAE、平均平方误差MSE、解释方差分R2。
聚类模型的评估指标:轮廓系数。
12、解释召回率,F1值,准确率,精确率
准确率:对于给定的测试集,分类模型正确分类的样本数与总样本数之比。
精确率:对于给定测试集的某一个类别,分类模型预测正确的比例,或者说:分类模型预测的正样本中有多少是真正的正样本。
召回率:对于给定测试集的某一个类别,样本中的正类有多少被分类模型预测正确。
F1值:代表精确率和召回率的权重是一样的,是最常用的一种评价指标。
13、Mean-shift(均值迁移)的基本思想
Mean-shift(即:均值迁移)的基本思想:在数据集中选定一个点,然后以这个点为圆心,r为半径,画一个圆(二维下是圆),求出这个点到所有点的向量的平均值,而圆心与向量均值的和为新的圆心,然后迭代此过程,直到满足一点的条件结束。
14、Ndarray的矢量、矢量化
矢量:即有大小又有方向
矢量化:图形处理,压缩图像
15、常用的分类器:
SGD分类器、决策树、朴素贝叶斯分类器 (也都可以做回归)
16、简述朴素贝叶斯
朴素贝叶斯的朴素,并不是简单的意思,而是指样本的特征之间是相互独立的
朴素贝叶斯的优点:1.有稳定的分类效率,2.对小规模数据表现很好,能处理多分类任务,适合增量式训练,尤其是数据量超出内存是,可以一批一批的增量驯良。3.对缺失数据不太敏感,算法比较简单,常用语文本分类
朴素贝叶斯的缺点:1.不满足独立性条件的数据集上,效果欠佳,2.需要先知道先验概率,先验模型很多时候取决于假设,因此某些时候会由于假设的先验模型的元婴导致预测效果不佳,3.由于通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率
17、什么是先验概率,什么是后验概率
先验概率:也叫先验分布,根据以往经验和分析得到的概率
后验概率:也叫后验分布,根据结果估计原因的概率
18、kmeans的优点和缺点
kmeans:优点:简单快速,对于大数据集,可伸缩性高效率,对于密集型数据,效果非常好
缺点:必须事先给出k值,不适用于非密集型数据集,对噪声和孤立点数据比较敏感
19、什么是pandas
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。
-
-
提供了大量能够快速便捷地处理数据的函数和方法
-
应用于数据挖掘,数据分析
-
提供数据清洗功能
-
20、什么是正太分布与标准正太分布
正太分布:也叫(高斯分布Gaussian distribution),是一种随机概率分布
描述Anocanda 、pycharm 、Jupyterlab 、JupyterNoteBook之间的区别?
Anaconda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。
Jupyter Notebook 是一个款以网页为基础的交互计算环境,可以创建Jupyter的文档,支持多种语言,包括Python, Julia, R等等。广泛用于数据分析,数据可视化和其他的交互和探索性计算中。
JupyterLab 是包括了Notebook的下一代用户界面。有模块化的界面,可以在同一个窗口同时打开好几个notebook或文件(HTML, TXT, Markdown等等),都以标签的形式展示,于是就更像是一个IDE。
22、过拟合和欠拟合?
过拟合指的是referstoa模型对于训练数据拟合程度过当的情况。
欠拟合指的是模型在训练和预测时表现都不好的情况。
泛化即是,机器学习模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。