摘要:
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义 选择题目一淘宝双11数据分析与预测,对于淘宝双11数据的分析与预测也可以更了解人们的购物行为。而且选择hadoop可以巩固知识。 二、实践方案 简要说明理由。 步骤零:实验环境准备 所需知识储备 Window 阅读全文
摘要:
补交作业:第十二次作业--垃圾邮件分类:https://www.cnblogs.com/sgczw/p/13060726.html 第十三次作业--垃圾邮件分类2:https://www.cnblogs.com/sgczw/p/13060743.html (这两个作业电脑显卡炸了,返厂修了两周,所以 阅读全文
摘要:
1.读取 # 1、读取数据集 def read_dataset(): file_path = r'SMSSpamCollection' sms = open(file_path, encoding='utf-8') sms_data = [] sms_label = [] csv_reader = 阅读全文
摘要:
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 import csv sms = open('D:/education/SMSSpamCollection.txt', 'r', encoding='utf-8') data = csv.reader(sms, delimiter= 阅读全文
摘要:
补交作业:第十二次作业--垃圾邮件分类:https://www.cnblogs.com/sgczw/p/13060726.html 第十三次作业--垃圾邮件分类2:https://www.cnblogs.com/sgczw/p/13060743.html (这两个作业电脑显卡炸了,返厂修了两周,所以 阅读全文
摘要:
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 答: (1)分类和聚类: 联系: 分类和聚类都是把每一条记录归应到相应的类别里,都包含这一过程,对于想要 分析的目标点,都会在数据集中寻找离它最近的点,二者都用到了NN算法。 区别: 1)分类 阅读全文
摘要:
一、用自己的话描述出其本身的含义: 1、特征选择 从原始特征中选取最有效的特征以降低数据集维度的过程。 2、PCA 利用降维的思想,把多指标转化为少数几个综合指标。 二、并用自己的话阐述出两者的主要区别 特征选择后还是原来的那个特征集, 而PCA则特征集会变,特征数目会变少。 阅读全文
摘要:
用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 from sklearn.featu 阅读全文
摘要:
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归通过正则化来防止过拟合;正则化可以防止过拟合是因为过拟合的时候,拟合函数的系数往往非常大,而正则化是 通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况,以L2正则化为例,正则项会使权重趋于 阅读全文
摘要:
1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 答:逻辑回归就是通过历史数据的表现,然后对未来结果发生的概率进行预测,重点是概率。而线性回归是通过数据来预测以后的数据,一个是概率,一个是数据。 2.自述一下什么是过拟合和欠拟合? 答: 过拟合:太过贴近于训练数据的特征了,在训练 阅读全文