04 2020 档案

摘要:一、用自己的话描述出其本身的含义: 1、特征选择 要剔除的特征主要是和类标签无关的特征 2、PCA 在特征很多是和类标签有关的情况下,用特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。并不是简单地去除某些特征。 二、并用自己的话阐述出两者的主要区别 特征选择后的特征是原来特征的一个 阅读全文
posted @ 2020-04-30 08:45 酒大暗 阅读(217) 评论(0) 推荐(0) 编辑
摘要:特征选择的常用方法包括: (1)过滤(Filter) 去掉取值变化小的特征 单变量特征选择 (2)封装(Wrapper) 递归特征消除 (3)嵌入(Embedding) 使用SelectFromModel选择特征 将特征选择过程融入pipeline 用过滤法对以下数据进行特征选择: [[0,2,0, 阅读全文
posted @ 2020-04-29 16:22 酒大暗 阅读(179) 评论(0) 推荐(1) 编辑
摘要:【1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?】 · 防止过拟合的方法: (1)增加样本量(适用任何模型)。 (2)如果数据稀疏,使用L1正则,其他情况,使用L2。 L1正则,通过增大正则项导致更多参数为0,参数系数化降低模型复杂度,从而抵抗过拟合。 L2正则,通过使得参数都趋于0, 阅读全文
posted @ 2020-04-26 19:29 酒大暗 阅读(246) 评论(0) 推荐(0) 编辑
摘要:【1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?】 逻辑回归是用回归的方式进行分类,拟合的不是线性函数,而是一个概率学中的函数,f(x)的值反映了样本属于这个类的概率。即训练结果原本为连续型变量,再通过划分阈值进行分类。 线性回归则是用线性的关系来拟合一个事情的发生规律,找到这 阅读全文
posted @ 2020-04-23 10:07 酒大暗 阅读(152) 评论(0) 推荐(0) 编辑
摘要:【1.总结】 线性回归可以理解为:在N维空间中找一个形式像直线方程(y=ax+b)一样的函数来拟合数据。 因此,线性回归包括: 单元(单因素)线性回归 多元(多因素)线性回归 而在构建线性回归模型的过程中,我们需要选择最合适的那条线,即预测结果与真实结果误差最小,这里就涉及到一个概念:损失函数(最小 阅读全文
posted @ 2020-04-20 14:55 酒大暗 阅读(283) 评论(0) 推荐(0) 编辑
摘要:1. 应用K-means算法进行图片压缩 (1)读取一张图片(照片来源:微博@喵呜不停) (2)观察图片文件大小,占内存大小,图片数据结构,线性化 1 from matplotlib import pyplot as plt 2 from sklearn.cluster import KMeans 阅读全文
posted @ 2020-04-16 15:57 酒大暗 阅读(304) 评论(0) 推荐(0) 编辑
摘要:1). 扑克牌手动演练k均值聚类过程:>30张牌,3类 可以看到,到第三轮结束,均值已不发生改变,故聚类中心已经稳定在[12, 8, 3],即Q、8、3 2). *自主编写K-means算法 ,以鸢尾花花瓣长度数据做聚类,并用散点图显示。(加分题) 鸢尾花花瓣长度分类——代码: 1 # 自主编写K- 阅读全文
posted @ 2020-04-15 15:38 酒大暗 阅读(408) 评论(0) 推荐(0) 编辑
摘要:P2 概率论与贝叶斯先验 一、概率论基础 1.概率与直观 (1)“九点分布”——本福特定律 【归纳】 (2)推荐系统——相似用品A、随机用品B,求B>A的概率 (3)公路堵车概率模型——Nagel-Schreckenberg交通流模型 ·减速概率的影响 2.常见概率分布 (1)概率公式 ·贝叶斯公式 阅读全文
posted @ 2020-04-13 14:51 酒大暗 阅读(271) 评论(0) 推荐(0) 编辑
摘要:本周任务: 一、python基础的准备 1、安装好Python开发环境, PyCharm 或 Anaconda等都可以,按个人习惯喜好。 2、基本库的安装,如numpy、pandas、scipy、matplotlib 二、本周视频学习内容:https://www.bilibili.com/video 阅读全文
posted @ 2020-04-05 17:39 酒大暗 阅读(259) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示