摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 二、实践方案 三、实践任务分解 根据所选的题目,明确实验步骤,分解任务到每天。 四、实践计划 按任务分解撰写计划表,每天按计划表开展工作。 第天根据实际情况更新计划表,有必要时调整。 1、选题:淘宝双11数 阅读全文
posted @ 2020-06-23 20:22 Doctor-Chan 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 训练集测试集划分 阅读全文
posted @ 2020-06-14 18:30 Doctor-Chan 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图 1 from sklearn.feature_selection import VarianceTh 阅读全文
posted @ 2020-06-06 17:23 Doctor-Chan 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 6.逻辑归回 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。 线性回归要求因变量必须是连续性数据变量;逻辑回归要求因变量必须是分类变量,二分类或者多分类的。 2.自述一下什么是过拟合和欠拟合? 阅读全文
posted @ 2020-06-06 17:21 Doctor-Chan 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 1. 应用K-means算法进行图片压缩。 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 1 2 3 4 5 6 阅读全文
posted @ 2020-06-06 17:20 Doctor-Chan 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 1,简述人工智能、机器学习和深度学习三者的联系与区别 人工智能 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、zhi延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一 阅读全文
posted @ 2020-06-06 17:16 Doctor-Chan 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 1.读取 sms = open("SMSSpamCollection", 'r', encoding='utf-8') # 数据读取 sms_data = [] sms_label = [] csv_reader = csv.reader(sms, delimiter='\t') for line 阅读全文
posted @ 2020-05-23 16:58 Doctor-Chan 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 答: 分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。而聚类的理解更 阅读全文
posted @ 2020-05-13 20:40 Doctor-Chan 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 从原始特征中选取最有效的特征以降低数据集维度的过程。 2、PCA 利用降维的思想,把多指标转化为少数几个综合指标。 二、并用自己的话阐述出两者的主要区别 特征选择后还是原来的那个特征集, 而PCA则特征集会变,特征数目会变少。 阅读全文
posted @ 2020-05-04 08:19 Doctor-Chan 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 答:算法层面可以通过正则化来防止,数据层面可以通过加大样本量或者通过特征选择减少特征量,过拟合归根结底就是是太过贴近于训练数据的特征了,正则化中的L1正则便是通过增大正值向降低模型复杂度,L2正则则是通过使参数趋于 阅读全文
posted @ 2020-04-29 20:34 Doctor-Chan 阅读(156) 评论(0) 推荐(0) 编辑