摘要:
以管理员身份,打开notepad++ --》设置(setting) --》首选项(preference) --》文件关联(file association) --》customize: 需要添加的后缀名: .log,.txt,.ini,.h,.c,.cpp,.java,.inc,.cs,.html, 阅读全文
摘要:
以前常用的是iso映像直接导入,今天遇到vmdk就卡住了,以下是vmdk格式虚拟机的配置过程。 根据下载的系统镜像文件,新建一个虚拟机,如例是Red Hat Enterprise Linux 7 64 位,则打开“文件”-“新建”-“虚拟机”,或者在 上面直接点击“新建虚拟机”,或者直接按快捷方式: 阅读全文
摘要:
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选择第二题。原因是:kaggle作为数据科学的家园,它提供的竞赛不仅让我从不同的高度思考问题,还借用奖金来吸引有更多有能力的人加入,初学者如我也可以从中学习优秀者的理论经验,从而提升自身能力。 二、实践方案 阅读全文
摘要:
利用tensorflow实现手写识别 1.手写数字数据集 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 张量结构 训练集测试集划分 3.设计卷积神经网络结构 绘制模型结构图,并说明设计依据。 设计依据: 1 # 阅读全文
摘要:
1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能是一个大的发展中的概念,其中包括包括专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等。即机器学习是实现人工智能的其中一个方法,而深度学习是机器学习所使用的一种算法。 总结:人工智能 > 机器学习 > 深度学习 阅读全文
摘要:
1.读取 1 import nltk 2 from nltk.corpus import stopwords 3 from nltk.stem import WordNetLemmatizer 4 import csv 5 import numpy as np 6 from sklearn.naiv 阅读全文
摘要:
1.1 读邮件数据集文件,提取邮件本身与标签。 以numpy数组形式存储: 1 import csv 2 # import nltk 3 from nltk.corpus import stopwords # 停用词 4 from nltk.stem import WordNetLemmatizer 阅读全文
摘要:
1.理解分类与监督学习、聚类与无监督学习。 【简述分类与聚类的联系与区别】 (1)联系:都是对数据集进行分类 (2)区别 · 分类:已知数据集的类别个数。如泰坦尼克号人员存活可能性(生/亡) · 聚类:未知数据集的类别个数,将相似度高的归类到一起。如划分应届毕业生平均工资水平 【简述什么是监督学习与 阅读全文
摘要:
一、用自己的话描述出其本身的含义: 1、特征选择 要剔除的特征主要是和类标签无关的特征 2、PCA 在特征很多是和类标签有关的情况下,用特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。并不是简单地去除某些特征。 二、并用自己的话阐述出两者的主要区别 特征选择后的特征是原来特征的一个 阅读全文
摘要:
特征选择的常用方法包括: (1)过滤(Filter) 去掉取值变化小的特征 单变量特征选择 (2)封装(Wrapper) 递归特征消除 (3)嵌入(Embedding) 使用SelectFromModel选择特征 将特征选择过程融入pipeline 用过滤法对以下数据进行特征选择: [[0,2,0, 阅读全文