木朽花 - 博客园

2020年6月23日

摘要：一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目简要说明理由与意义。选择 1.Hadoop平台应用 --淘宝双11数据分析与预测通过Hadoop平台对淘宝的双十一数据进行分析，并预测出回头客，熟悉对于Hadoop平台更多的应用和操作。二、实践方案简要说明理由。步骤零阅读全文

posted @ 2020-06-23 19:30 木朽花阅读(216) 评论(0) 推荐(0)

2020年6月13日

15-手写数字识别-小数据集

摘要： 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x：归一化MinMaxScaler() y：独热编码OneHotEncoder()或to_categorical 训练集测试集划分阅读全文

posted @ 2020-06-13 10:03 木朽花阅读(262) 评论(0) 推荐(0)

2020年6月7日

14-深度学习-卷积

摘要： 1.简述人工智能、机器学习和深度学习三者的联系与区别人工智能：人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科阅读全文

posted @ 2020-06-07 15:28 木朽花阅读(489) 评论(0) 推荐(0)

2020年5月23日

13-垃圾邮件分类2

摘要： 1.读取 2.数据预处理实现代码： import nltk import csv from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer # 返回词性类别 def get_word_pos(tag): if 阅读全文

posted @ 2020-05-23 18:22 木朽花阅读(198) 评论(0) 推荐(0)

2020年5月17日

12-朴素贝叶斯-垃圾邮件分类

摘要： 1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句句子分词大小写，标点符号，去掉过短的单词词性还原：复数、时态、比较级连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文

posted @ 2020-05-17 10:27 木朽花阅读(253) 评论(0) 推荐(0)

2020年5月12日

11-分类与监督学习，朴素贝叶斯分类算法

摘要： 1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。联系：均是对数据进行分类操作区别：分类是从已知的类别中找出相似的信息，然后对某一个点进行归类；聚类则是将大量的数据分成若干类，事先是没有准确的类别信息的；简述什么是监督学习与无监督学习。监督学习是对具有先验知识（事先标记阅读全文

posted @ 2020-05-12 11:39 木朽花阅读(250) 评论(0) 推荐(0)

2020年5月3日

9-主成分分析

摘要：一、用自己的话描述出其本身的含义： 1、特征选择去除的特征主要是和类标签无关的特征，且特征在选择前和选择后不改变值。 2、PCA 在特征很多是和类标签有关的情况下，将原来的n维数据都映射到另外一个维度上，在映射的过程中特征值也发生变化，来消减特征的数目。二、并用自己的话阐述出两者的主要区别特征阅读全文

posted @ 2020-05-03 18:25 木朽花阅读(133) 评论(0) 推荐(0)

2020年4月30日

8-特征选择

摘要：用过滤法对以下数据进行特征选择： [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求： 1、Variance Threshold（threshold =1.0） 2、将结果截图放上来（没有条件的备注说明原因）注意：每个人的电脑ID是不一样的实现代码： #特征选择 from s 阅读全文

posted @ 2020-04-30 11:52 木朽花阅读(141) 评论(0) 推荐(0)

2020年4月29日

7-逻辑回归实践

摘要： 1.逻辑回归是怎么防止过拟合的？为什么正则化可以防止过拟合？防止过拟合的方法：可以通过进行特征选择；交叉验证；正则化；加大样本量过拟合的时候，拟合函数的系数往往非常大，因为过拟合就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。即在某些很小的区间里，函数值的变化很剧烈，这就意味着函数在某阅读全文

posted @ 2020-04-29 19:18 木朽花阅读(183) 评论(0) 推荐(0)

2020年4月24日

6-逻辑回归

摘要： 1.用自己的话描述一下，什么是逻辑回归，与线性回归对比，有什么不同？逻辑回归是一种用于解决二分类问题的机器学习方法，可以用于估计某种事物的可能性逻辑回归解决的是分类问题，而不是线性回归问题 2.自述一下什么是过拟合和欠拟合？过拟合：一个模型在训练数据上获得了相比于其他模型更好的拟合，但是在其阅读全文

posted @ 2020-04-24 11:40 木朽花阅读(136) 评论(0) 推荐(0)

公告