Doctor-Chan

2020年6月23日

摘要：一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目简要说明理由与意义。二、实践方案三、实践任务分解根据所选的题目，明确实验步骤，分解任务到每天。四、实践计划按任务分解撰写计划表，每天按计划表开展工作。第天根据实际情况更新计划表，有必要时调整。 1、选题：淘宝双11数阅读全文

posted @ 2020-06-23 20:22 Doctor-Chan 阅读(203) 评论(0) 推荐(0)

2020年6月14日

15 手写数字识别-小数据集

摘要： 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x：归一化MinMaxScaler() y：独热编码OneHotEncoder()或to_categorical 训练集测试集划分阅读全文

posted @ 2020-06-14 18:30 Doctor-Chan 阅读(189) 评论(0) 推荐(0)

2020年6月6日

8.特征选择

摘要：用过滤法对以下数据进行特征选择： [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求： 1、Variance Threshold（threshold =1.0） 2、将结果截图 1 from sklearn.feature_selection import VarianceTh 阅读全文

posted @ 2020-06-06 17:23 Doctor-Chan 阅读(124) 评论(0) 推荐(0)

6.逻辑归回

摘要： 6.逻辑归回 1.用自己的话描述一下，什么是逻辑回归，与线性回归对比，有什么不同？逻辑回归是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。线性回归要求因变量必须是连续性数据变量；逻辑回归要求因变量必须是分类变量，二分类或者多分类的。 2.自述一下什么是过拟合和欠拟合？阅读全文

posted @ 2020-06-06 17:21 Doctor-Chan 阅读(99) 评论(0) 推荐(0)

4.K值算法应用

摘要： 1. 应用K-means算法进行图片压缩。读取一张图片观察图片文件大小，占内存大小，图片数据结构，线性化用kmeans对图片像素颜色进行聚类获取每个像素的颜色类别，每个类别的颜色压缩图片生成：以聚类中收替代原像素颜色，还原为二维观察压缩图片的文件大小，占内存大小 1 2 3 4 5 6 阅读全文

posted @ 2020-06-06 17:20 Doctor-Chan 阅读(243) 评论(0) 推荐(0)

14 深度学习-卷积

摘要： 1,简述人工智能、机器学习和深度学习三者的联系与区别人工智能人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、zhi延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一阅读全文

posted @ 2020-06-06 17:16 Doctor-Chan 阅读(128) 评论(0) 推荐(0)

2020年5月23日

作业十三--垃圾邮件分类2

摘要： 1.读取 sms = open("SMSSpamCollection", 'r', encoding='utf-8') # 数据读取 sms_data = [] sms_label = [] csv_reader = csv.reader(sms, delimiter='\t') for line 阅读全文

posted @ 2020-05-23 16:58 Doctor-Chan 阅读(170) 评论(0) 推荐(0)

2020年5月13日

十一、分类与监督学习，朴素贝叶斯分类算法

摘要： 1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。简述什么是监督学习与无监督学习。答：分类简单来说，就是根据文本的特征或属性，划分到已有的类别中。也就是说，这些类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。而聚类的理解更阅读全文

posted @ 2020-05-13 20:40 Doctor-Chan 阅读(412) 评论(0) 推荐(0)

2020年5月4日

主成分分析

摘要：一、用自己的话描述出其本身的含义： 1、特征选择从原始特征中选取最有效的特征以降低数据集维度的过程。 2、PCA 利用降维的思想，把多指标转化为少数几个综合指标。二、并用自己的话阐述出两者的主要区别特征选择后还是原来的那个特征集，而PCA则特征集会变，特征数目会变少。阅读全文

posted @ 2020-05-04 08:19 Doctor-Chan 阅读(140) 评论(0) 推荐(0)

2020年4月29日

逻辑回归实践

摘要： 1.逻辑回归是怎么防止过拟合的？为什么正则化可以防止过拟合？（大家用自己的话介绍下）答：算法层面可以通过正则化来防止，数据层面可以通过加大样本量或者通过特征选择减少特征量,过拟合归根结底就是是太过贴近于训练数据的特征了，正则化中的L1正则便是通过增大正值向降低模型复杂度，L2正则则是通过使参数趋于阅读全文

posted @ 2020-04-29 20:34 Doctor-Chan 阅读(165) 评论(0) 推荐(0)

公告