摘要:
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选择 1.Hadoop平台应用 --淘宝双11数据分析与预测 通过Hadoop平台对淘宝的双十一数据进行分析,并预测出回头客,熟悉对于Hadoop平台更多的应用和操作。 二、实践方案 简要说明理由。 步骤零 阅读全文
摘要:
1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 训练集测试集划分 阅读全文
摘要:
1.简述人工智能、机器学习和深度学习三者的联系与区别 人工智能: 人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科 阅读全文
摘要:
1.读取 2.数据预处理 实现代码: import nltk import csv from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer # 返回词性类别 def get_word_pos(tag): if 阅读全文
摘要:
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
摘要:
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 联系:均是对数据进行分类操作 区别:分类是从已知的类别中找出相似的信息,然后对某一个点进行归类;聚类则是将大量的数据分成若干类,事先是没有准确的类别信息的; 简述什么是监督学习与无监督学习。 监督学习是对具有先验知识(事先标记 阅读全文
摘要:
一、用自己的话描述出其本身的含义: 1、特征选择 去除的特征主要是和类标签无关的特征,且特征在选择前和选择后不改变值。 2、PCA 在特征很多是和类标签有关的情况下,将原来的n维数据都映射到另外一个维度上,在映射的过程中特征值也发生变化,来消减特征的数目。 二、并用自己的话阐述出两者的主要区别 特征 阅读全文
摘要:
用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 实现代码: #特征选择 from s 阅读全文
摘要:
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合? 防止过拟合的方法:可以通过进行特征选择;交叉验证;正则化;加大样本量 过拟合的时候,拟合函数的系数往往非常大,因为过拟合就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。即在某些很小的区间里,函数值的变化很剧烈,这就意味着函数在某 阅读全文
摘要:
1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归是一种用于解决二分类问题的机器学习方法,可以用于估计某种事物的可能性 逻辑回归解决的是分类问题,而不是线性回归问题 2.自述一下什么是过拟合和欠拟合? 过拟合: 一个模型在训练数据上获得了相比于其他模型更好的拟合,但是在其 阅读全文