摘要:
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 二、实践方案 简要说明理由。 三、实践任务分解 根据所选的题目,明确实验步骤,分解任务到每天。 四、实践计划 按任务分解撰写计划表,每天按计划表开展工作。 第天根据实际情况更新计划表,有必要时调整。 一、选 阅读全文
摘要:
补交作业:4.K均值算法 https://www.cnblogs.com/a188182/p/13057563.html(这次作业看错时间忘记交了,希望老师给个补交机会) 12.朴素贝叶斯-垃圾邮件分类 https://www.cnblogs.com/a188182/p/13060368.html( 阅读全文
摘要:
补交作业: 4.K均值算法 12.朴素贝叶斯-垃圾邮件分类 第一次是看错时间忘记交作业了,第二次是家里没电,晚上12点多才有电,没交到作业 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 1 from 阅读全文
摘要:
补交作业: 4.K均值算法 12.朴素贝叶斯-垃圾邮件分类 第四次作业是家里没电。没交到,第十二次是看错的提交时间没交到,希望老师给个机会补交 1.简述人工智能、机器学习和深度学习三者的联系与区别。 区别: (1)人工智能:目的和结果,深度学习,机器学习是方法,是工具。 (2)机器学习:一种实现人工 阅读全文
摘要:
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h 阅读全文
摘要:
1. 应用K-means算法进行图片压缩。 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 1 2 3 4 5 6 阅读全文
摘要:
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
摘要:
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 答:区别:分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴; 聚类没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。 联系: 阅读全文
摘要:
一、用自己的话描述出其本身的含义: 1、特征选择 一般是减少样本中不相关的特征,加快模型的训练速度和效率,比如预测今天是否会下雨,其中性别比例就是多余的特征。 2、PCA 就是识别数据中主要的特征,然后通过分析特征值,确定出需要保留的主成分个数,舍弃其他主成分,从而实现数据的降维。 二、并用自己的话 阅读全文
摘要:
8、特征选择 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来 阅读全文