摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选择第2题Kaggle分析数据项目,当前电脑有pycharm和Anaconda等相关软件与环境可支持,选择了自己感兴趣的黑色星期五交易数据进行分析来更好地了解客户群体分类,主要消费人群的特征。 二、实践方案 阅读全文
posted @ 2020-06-23 14:43 linyanli 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 将分类特征的每个元 阅读全文
posted @ 2020-06-11 10:39 linyanli 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能 机器学习 深度学习 联系 人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,也是当今人工智能大爆炸的核心驱动。 人工智能>机器学习>深度学习 区别 为机器赋予人的智能,是目的,是结果,适用图 阅读全文
posted @ 2020-06-05 10:04 linyanli 阅读(366) 评论(2) 推荐(1) 编辑
摘要: 1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
posted @ 2020-05-21 11:19 linyanli 阅读(252) 评论(0) 推荐(1) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 a.邮件分句 b.句子分词 c.大小写,标点符号,去掉过短的单词 d.词性还原:复数、时态、比较级 e.连接成字符串 2.1 传统方法来实现 利用列表,字典,集合等的操作进行词频统计 2.2 nltk库的安装与使用 阅读全文
posted @ 2020-05-14 20:28 linyanli 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别,简述什么是监督学习与无监督学习。 分类 聚类 含义 把每一条记录归到对应的已知类别中。 将数据集划分为若干类, 使得类内之间的数据最为相似, 各类之间的数据相似度差别尽可能大。 联系 对于想要分析的目标点,都会在数据集中寻找离它 阅读全文
posted @ 2020-05-07 08:40 linyanli 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 从提取到的所有特征中选择和类标签有关的特征作为训练集特征,特征在选择前和选择后不改变值。 2、PCA 将多个变量通过线性变换以选出较少个重要变量的一种多元统计分析方法。本质上是从一个维度空间映射到另一个维度空间,在映射的过程中特征值也会相应的变化。 阅读全文
posted @ 2020-04-30 08:53 linyanli 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 防止过拟合: (1)进行特征选择,消除关联性大的特征 (2)加大样本量 (3)交叉验证(让所有数据都有过训练) (4)正则化 正则化可以防止过拟合的原因: L1正则,通过增大正则项导致更多参数为0,参数系数化降低模 阅读全文
posted @ 2020-04-27 16:56 linyanli 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 阅读全文
posted @ 2020-04-27 16:35 linyanli 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归虽然名字中有“回归”,但实际却是一种分类学习方法,它将数据拟合到一个logit函数或者是 logistic函数中,从而能够完成对事件发生的概率进行预测。 虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基 阅读全文
posted @ 2020-04-23 10:02 linyanli 阅读(269) 评论(0) 推荐(0) 编辑