摘要:
1. Git 版本:Git-2.32.0.2-64-bit windows 版本:windows 10 问题:Git bash 界面响应速度非常缓慢 解决方案:1. 退出杀毒软件或者关闭文件实时监控功能(未果) 2. 使用Win + X 打开设备管理器,在显示适配器下将 AMD显卡进行禁用(本机亲测 阅读全文
摘要:
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选择1.淘宝双11数据分析与预测 理由:之前接触过hadoop,所以打算重新把这个回忆起来。 意义:双十一的利益与我们密切相关,分析好了在双十一有可能可以更大折扣。 二、实践方案 简要说明理由。 利用虚拟机 阅读全文
摘要:
1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 训练集测试集划分 阅读全文
摘要:
1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能最大,根本在于智能;机器学习次之,机器学习是实现人工智能的一种方法;深度学习最后,但深度学习是实现机器学习的一种核心技术。 2. 全连接神经网络与卷积神经网络的联系与区别。 卷积神经网络中的每一个节点就是一个神经元。在全连接神经网络中, 阅读全文
摘要:
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
摘要:
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
摘要:
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类与聚类的区别:是否有已知分类的条件。分类没有,聚类有。 监督学习:已知某些类别的情况下,即具有事先标记的数据,通过特征分析来学习的一类算法。 无监督学习:不具有事先标签的数据,缺乏先验知识 阅读全文
摘要:
一、用自己的话描述出其本身的含义: 1、特征选择 2、PCA 特征选择:通过自己的个人行为进行人工选择特征,删除相关系数较低的特征,在后续的训练等步骤中,以致于最终的分析结果更加准确。 PCA:分析、简化数据集的技术。降低数据复杂度,使用后数据会改变,特征数量也会改变。 二、并用自己的话阐述出两者的 阅读全文
摘要:
用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 1 from sklearn.fea 阅读全文
摘要:
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 利用正则化来防止过拟合。正则化可以有更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好 2.用logiftic回归来进行实践操作,数据不限。 1 from sklearn.linear_mode 阅读全文