04 2022 档案

摘要:1、添加修改数据 Pandas 的数据修改是进行赋值,先把要修改的数据筛选出来,然后将同结构或者可解包的数据赋值给它: 修改数值 df.Q1 = [1, 3, 5, 7, 9] * 20 # 就会把值进行修改 df.loc[1:3, 'Q1':'Q2'] = 99 # 这个范围的数据会全变成 99 阅读全文
posted @ 2022-04-30 15:54 朝南烟 阅读(437) 评论(0) 推荐(0) 编辑
摘要:非负矩阵分解(NMF)是一种无监督学习算法,目的在于提取有用的特征(可以识别出组合成数据的原始分量),也可以用于降维,通常不用于对数据进行重建或者编码。 NMF将每个数据点写成一些分量的加权求和(与PCA相同),并且分量和系数都大于0, 只能适用于每个特征都是非负的数据(正负号实际上是任意的)。 1 阅读全文
posted @ 2022-04-29 15:19 朝南烟 阅读(1072) 评论(0) 推荐(0) 编辑
摘要:流行学习算法: 是一类用于可视化的算法,它允许进行更复杂的映射,通常也可以给出更好的可视化。 t-SNE算法是其中一种。 PCA是用于变换数据的首选方法,也可以进行可视化,但它的性质(先旋转然后减少方向)限制了有效性。因此,我们可以使用流形学习算法进行数据可视化。 1、什么是t-SNE t-SNE算 阅读全文
posted @ 2022-04-29 14:09 朝南烟 阅读(634) 评论(0) 推荐(0) 编辑
摘要:主成分分析(PCA)是一种旋转数据集的方法,旋转后的特征在统计上不相关。 1、什么是PCA (1)、理解概念 下图展示了PCA对于一个模拟二维数据集的作用 图一: 算法在原始数据点集中,找到方差最大的方向(包含最多信息),标记为‘成分1’。 找到与“成分1”正交(成直角)且包含最多信息的方向,标记为 阅读全文
posted @ 2022-04-27 17:21 朝南烟 阅读(363) 评论(0) 推荐(0) 编辑
摘要:一些算法,比如神经网络和SVM,对数据缩放非常敏感。需要对数据进行一种简单的按特征的缩放和移动。 1、不同类型的预处理 一个简单的二分类例子 📣 库:sklearn.preprocessing StandardScaler:确保每个特征的平均值为0,方差为1。 RobustScaler:使用中位数 阅读全文
posted @ 2022-04-26 23:13 朝南烟 阅读(64) 评论(0) 推荐(0) 编辑
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第五章:Pandas高级操作的三个内容 复杂查询 数据类型转换 数据排序 🚗我的博客链接: Pandas复杂查询、数据类型转换、数据排序 2、《Python机器学习基础教程》第二章p53-p90 朴素贝叶斯分类器 🚗我的博客链 阅读全文
posted @ 2022-04-23 21:18 朝南烟 阅读(41) 评论(0) 推荐(0) 编辑
摘要:Pandas高级操作 1、复杂查询 (1)逻辑运算 以DataFrame其中一列进行逻辑计算,会产生一个对应的bool值组成的Series 于是我们可以利用返回的bool列表进行一系列的数据查询 (2)逻辑筛选数据 df[df['Q1'] == 8] # Q1 等于8 df[~(df['Q1'] = 阅读全文
posted @ 2022-04-23 20:53 朝南烟 阅读(229) 评论(0) 推荐(0) 编辑
摘要:1、多层感知机 原理: 多次重复线性回归的加权求和过程(中间的计算结果称为隐单元,隐单元构成隐层),计算完每个隐单元的加权求和之后,对结果应用一个非线性函数。再将这个函数结果用于加权求和得出y 矫正非线性(relu) 正切双曲线(tanh) sklearn.neural_network.MLPCla 阅读全文
posted @ 2022-04-23 19:19 朝南烟 阅读(150) 评论(0) 推荐(0) 编辑
摘要:核支持向量机(SVM)是可以推广到更复杂模型的扩展,这些模型无法被输入空间的超平面定义。 SVM可以同时用于分类和回归 1、线性模型与非线性特征 线性模型在低维空间中可能非常受限,因为线和平面的灵活性有限。有一种方法可以让线性模型变得更加灵活,就是添加更多的特征(添加输入特征的交互项或多项式)。 � 阅读全文
posted @ 2022-04-22 16:24 朝南烟 阅读(226) 评论(0) 推荐(0) 编辑
摘要:决策树是广泛用于分类和回归任务的模型。 它从一层层的if/else问题(尽可能少的问题)中进行学习,并得出结论 1、构造决策树 1)two_moons数据集 这是个二分类数据集(每个类别50个数据点),样本点在坐标图中的分布像两个半月牙,因此叫做two_moons 2)学习决策树,就是学习一系列的i 阅读全文
posted @ 2022-04-21 20:38 朝南烟 阅读(277) 评论(0) 推荐(0) 编辑
摘要:集成(ensemble)是合并多个机器学习模型来构建更强大模型的方法。 已证明有两种集成模型对大量分类和回归的数据集都是有效的,二者都以决策树为基础,分别是随机森林(random forest)和梯度提升决策树(gradient boosted decision tree)。 1、随机森林 决策树的 阅读全文
posted @ 2022-04-21 20:36 朝南烟 阅读(242) 评论(0) 推荐(0) 编辑
摘要:朴素贝叶斯分类器是一种与线性模型非常相类似的一种分类器。 它的训练速度比线性模型更快,但是泛化能力要强。 主要思想:通过独立查看每个特征来学习参数,并从每个特征中收集简单的类别统计数据 scikit-learn实现了三种朴素贝叶斯分类器:1、GaussianNB分类器(高斯)、2、Bernoulli 阅读全文
posted @ 2022-04-20 18:29 朝南烟 阅读(921) 评论(0) 推荐(0) 编辑
摘要:本周收获 总结一下本周学习内容: 1、复习了Numpy的一些基础操作,主要是利用numpy来对ndarray数组进行操作 🚗我的博客链接: Numpy的一些操作 2、正在学习《深入浅出Pandas》 1~2章是对Pandas的一个快速入门,我只是大致浏览了一下 本周重点看的是3~4章,是有关Pan 阅读全文
posted @ 2022-04-17 10:25 朝南烟 阅读(47) 评论(0) 推荐(0) 编辑
摘要:线性模型利用输入特征的线性函数进行预测 1、用于回归的线性模型 一般公式 其中,x[0]~x[p]表示单个数据点的特征(本例中特征有p+1个),w和b是学习模型的参数,y是预测结果。 👍 可以把预测的响应值看作是输入特征的加权求和,权重由w[]给出(可以是负值)。 用于回归的线性模型可以表示为:对 阅读全文
posted @ 2022-04-17 09:46 朝南烟 阅读(365) 评论(0) 推荐(0) 编辑
摘要:1、什么是Numpy 简单来说: Numpy(Numerical Python)是一个开源的Python科学计算库,用于快速处理任意维度的数组。 Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。 Numpy使用ndarray对象来处理多维数 阅读全文
posted @ 2022-04-15 18:50 朝南烟 阅读(64) 评论(0) 推荐(0) 编辑
摘要:监督机器学习问题主要分两种:1、分类,2、回归 👍 区分分类任务和回归任务:输出是否具有某种连续性。 泛化:一个模型能对新数据进行很好地预测,则该模型泛化性能好 过拟合:模拟模型时过分关注训练集的细节,得到一个在训练集上表现好,但不能泛化到新数据上 拟合:选择过于简单的模型 1、K近邻 算法思想: 阅读全文
posted @ 2022-04-14 21:37 朝南烟 阅读(104) 评论(0) 推荐(0) 编辑
摘要:## 1、读取CSV CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。 pd.read_csv(filepath_or_buffer, sep=',', header='infer', 阅读全文
posted @ 2022-04-13 14:28 朝南烟 阅读(232) 评论(0) 推荐(0) 编辑
摘要:最近的学习内容为**《Python机器学习基础教程》**这本书 从第一章开始,慢慢来,比较快。 一下为我的本周机器学习小结,以及下周的Flag。 本周收获 总结一下本周学习内容: 1、了解到机器学习的概念和应用 2、初步熟悉了本书会用到的机器学习的工具之二 Jupyter Notebook 点击链接 阅读全文
posted @ 2022-04-10 16:45 朝南烟 阅读(31) 评论(0) 推荐(0) 编辑
摘要:利用鸢尾花数据集完成一个简单的机器学习应用~万丈高楼平地起,虽然很基础,但是还是跟着书敲了一遍代码。 一、模型构建流程 1、获取数据 本次实验的Iris数据集来自skicit-learn的datasets模块 from sklearn.datasets import load_iris iris_d 阅读全文
posted @ 2022-04-10 16:28 朝南烟 阅读(492) 评论(0) 推荐(0) 编辑
摘要:Matplotlib专门用于开发2D图表(包括3D图表),在日常数据处理中经常需要运用到它,它的用法非常多样,这里记录一些基础用法,算是一个小入门,后面如果有更复杂的画图要求,再进一步学习。 如果有需要绘制某种类型的表格可以访问-->官网文档,下文也会进一步说一下这个网站~ 一、实现一个简单的Mat 阅读全文
posted @ 2022-04-08 17:53 朝南烟 阅读(71) 评论(0) 推荐(0) 编辑
摘要:第一接触jupyter notebook,为了之后更方便使用,写下这篇使用记录。 一、Jupyter Notebok介绍 Jupyter是一款程序员和科学工作者的编程/文档/笔记/展示软件 Jupyter Notebook,原名IPython Notbook,是IPython的加强网页版,一个开源W 阅读全文
posted @ 2022-04-07 20:09 朝南烟 阅读(528) 评论(0) 推荐(0) 编辑

body { color: #000; background-color: #e6e6e6; font-family: "Helvetica Neue",Helvetica,Verdana,Arial,sans-serif; font-size: 12px; min-height: 101%; background: url(https://images.cnblogs.com/cnblogs_com/caolanying/1841633/o_2009041…ly1geq8oc9owbj21hc0u0th5.jpg) fixed; } #home { margin: 0 auto; opacity: 0.8; width: 65%; min-width: 1080px; background-color: #fff; padding: 30px; margin-top: 50px; margin-bottom: 50px; box-shadow: 0 2px 6px rgba(100, 100, 100, 0.3); }
点击右上角即可分享
微信分享提示