2020年6月10日

11.分类与监督学习,朴素贝叶斯分类算法

摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过 阅读全文

posted @ 2020-06-10 21:22 dyunc3 阅读(49) 评论(0) 推荐(0) 编辑

15 手写数字识别-小数据集

摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 训练集测试集划分 阅读全文

posted @ 2020-06-10 20:52 dyunc3 阅读(212) 评论(0) 推荐(0) 编辑

2020年6月1日

14 深度学习-卷积

摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等;机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分 阅读全文

posted @ 2020-06-01 11:37 dyunc3 阅读(119) 评论(0) 推荐(0) 编辑

2020年5月27日

13-垃圾邮件分类2

摘要: 1.读取 1 def read_dataset(): 2 file_path = r'SHSSpamCollection' 3 sms = open(file_path,encoding='utf-8') 4 sms_data = [] 5 sms_label = [] 6 csv_reader = 阅读全文

posted @ 2020-05-27 20:27 dyunc3 阅读(136) 评论(0) 推荐(0) 编辑

2020年5月20日

12.朴素贝叶斯-垃圾邮件分类

摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 import csv path = r'A:\SMSSpamCollection.txt' sms = open(path, 'r', encoding='utf-8') csv_reader = csv.reader(sms, d 阅读全文

posted @ 2020-05-20 12:53 dyunc3 阅读(102) 评论(0) 推荐(0) 编辑

2020年4月29日

9、主成分分析

摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 通过样本的特征来预测样本所对应的值。这个样本数量一定要多,利用已有的特征计算出一个抽象程度更高的特征集。 2、PCA 主成分分析技术,利用降维的思想,把多指标转化为少数几个综合指标。 二、并用自己的话阐述出两者的主要区别 特征选择是从已经存在的特征中 阅读全文

posted @ 2020-04-29 15:14 dyunc3 阅读(178) 评论(0) 推荐(0) 编辑

8、特征选择

摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来 阅读全文

posted @ 2020-04-29 15:02 dyunc3 阅读(113) 评论(0) 推荐(0) 编辑

7.逻辑回归实践

摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 增加样本量 如果数据稀疏,使用L1正则,其他则L2 通过特征选择,剔除一些不重要的特征,从而降低模型复杂度。 检查业务逻辑,判断特征有效性,是否在用结果预测结果 进行离散化处理,所有特征都离散化 2.用logift 阅读全文

posted @ 2020-04-29 14:56 dyunc3 阅读(130) 评论(0) 推荐(0) 编辑

2020年4月26日

6.逻辑归回

摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 它常用于数据挖掘,是一种广义的线性回归分析模型,用来解决二分类机器学习 0 or 1 的问题。而线性回归利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。它常用于数学计算方法。 2.自述一下什 阅读全文

posted @ 2020-04-26 10:33 dyunc3 阅读(102) 评论(0) 推荐(0) 编辑

2020年4月22日

5.线性回归算法

摘要: 1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 监督学习:监督学习是从标记的训练数据来推断一个功能的机器学习任务。 半监督学习:半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。 无监督学习:根据类别未知(没有被标记)的训练样本解决模式识别中的各 阅读全文

posted @ 2020-04-22 20:25 dyunc3 阅读(174) 评论(0) 推荐(0) 编辑

导航