06 2022 档案
摘要:本周收获 总结一下本周学习内容: 1、《深入浅出Pandas》的第11章:Pandas文本处理 11.1 数据类型 11.2 字符的操作 11.3 文本高级处理 🚗博客: Pandas文本处理 2、《机器学习》第4章剩下的 4.3剪枝处理 4.4连续与缺失值 4.5多变量决策树 🚗博客:机器学习
阅读全文
摘要:下面介绍一些常见的神经网络 1、其他常见神经网络 1.1RBF网络 RBF网络是一种单隐层前馈神经网络,它使用径向基函数作为隐层神经元激活函数,而输出层则是对隐层神经元输出的线性组合。径向基函数,是某种沿径向对称的标量函数,通常定义为样本到数据中心之间欧氏距离的单调函数。具有足够多隐层神经元的RBF
阅读全文
摘要:1、 基本概念 在机器学习中,神经网络一般指的是“神经网络学习”,是机器学习与神经网络两个学科的交叉部分。所谓神经网络,目前用得最广泛的一个定义是“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。神经网络其实就是一个函数近似器。
阅读全文
摘要:前面机器学习:决策树(上)已经学习了构造决策树的基本流程、三个常见算法、以及划分属性的方法,下面将学习如何优化一个决策树 1、剪枝处理 剪枝(pruning)是决策树学习算法应对过拟合的主要手段。因为决策树模型太强大了,很可能把训练集学得太好以致于把训练集本身的特性也给学习了(特别是属性数多于样本数
阅读全文
摘要:操作方法 .str. 方法属性 s.str.lower() etc. 切分替换 .str.split('_').str.get(1) .str.replace('^.a|dog', 'XX-XX ', case=False) 连接 .str.cat(sep=',') 索引 s.str[0] 提取子串
阅读全文
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第10章:Pandas数据清洗 10.1 缺失值的认定 ~ 10.5 Numpy格式转化 🚗博客: Pandas:数据清洗 2、《机器学习》第3章、第4章的一部分 第3章 3.1基本形式 3.2线性回归 3.3对数几率回归 3.
阅读全文
摘要:1、基本流程 决策树中决策过程的每一次判定都是对某一属性的“测试”,决策最终结论则对应最终的判定结果。 一般一棵决策树包含:一个根节点、若干个内部节点和若干个叶子节点 每个非叶节点表示一个特征属性测试。 每个分支代表这个特征属性在某个值域上的输出。 每个叶子节点存放一个类别。 每个节点包含的样本集合
阅读全文
摘要:线性模型(上)记录了线性模型寻求最优解的原理,下面学习线性模型遇到的多分类问题、类别不平衡问题: 1、多分类学习 一对一(OvO):N个类别两两配对,将多分类问题转化为N(N-1)/2个二分类问题。 一对余(OvR):假设有N个类别,每次把一个类作为正类,其他类作为反类,将多分类问题转化为(N-1)
阅读全文
摘要:1、线性回归 线性: 两个变量之间的关系是一次函数关系 回归: 人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。 线性回归问题就是试图学到一个线性模型尽可能准确地预测新样本的输出
阅读全文
摘要:1、缺失值的认定 由于数据的来源的复杂性、不确定性,数据中难免会存在字段值不全、缺失等情况,本文将介绍如何找出这些缺失的值。 2、缺失值的操作 3、数据替换 4、重复值及删除数据 5、Numpy格式转换 转换方法: (1) ds.to_numpy() (2) s.array
阅读全文
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的的第九章:Pandas数据重塑与透视 9.1数据透视 ~ 9.8爆炸列表 🚗博客: Pandas:数据重塑与透视 2、《机器学习》第1章、第2章 第1章 1.1 基本术语 1.2 假设空间 1.3 归纳偏好 1.4 发展历程 1
阅读全文
摘要:模型评估与选择 1、经验误差与过拟合 错误率:分类错误的样本数占样本总数的比例。 精度=1-错误率。 误差:学习器的实际预测输出与样本的真实输出之间的差异。 训练误差/经验误差:学习器在训练集上的误差。 泛化误差:在新样本上的误差。 2、评估方法 ⭐留出法:直接将数据集划分为两个互斥的集合。 需要注
阅读全文
摘要:西瓜书第一章的知识点如下: 1.1 基本术语 机器学习正是这样的一门学科,人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习。 ⭐另一本经典教材的作者Mitchell给出了一个形式化的定义,假设: P:计算机程
阅读全文
摘要:Pandas 主要提供以下数据变形方面的操作: 透视 df.pivot / pd.pivot_table 堆叠 stacking / unstacking 数据融合 (melt) 交叉表 crosstab() 分解 pd.factorize(x, sort=True) 虚拟对象 pd.get_dum
阅读全文
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的的第八章:Pandas多层索引 8.1概述 8.2多层索引操作 8.3数据查询 🚗博客: Pandas:多层索引 2、《Python机器学习基础教程》第六章、第七章 第六章 🚗博客:算法链与管道(上):建立管道 🚗博客:算法
阅读全文
摘要:4、停用词 删除没有信息量的单词还有另一种方法,就是舍弃那些出现次数太多以至于没有信息量的单词。有两种主要方法:使用特定语言的停用词(stopword)列表,或者舍弃那些出现过于频繁的单词。 scikit-learn 的 feature_extraction.text 模块中提供了英语停用词的内置列
阅读全文
摘要:多层索引是指在行或者列轴上有两个及以上级别的索引,一般表示一个数据的几个分项。 1、创建多层索引 1.1通过分组产生多层索引 1.2由序列创建 1.3由元组创建 1.4可迭代对象的笛卡尔积 1.5将DataFrame转为多层索引对象 2、多层索引操作 多层索引和单层索引一样,但在它也有一些特定的操作
阅读全文
摘要:我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。 第三种类型的特征:文本 文本数据通常被表示为由字符组成的字符串。 1、用字符串表示的数据类型 文本通常只是数据集中的字符串,但并非所有的字符串特征都应该被当作文本来处理。 字符串特征有时可以表示分
阅读全文
摘要:1、通用的管道接口 Pipeline 类不但可用于预处理和分类,实际上还可以将任意数量的估计器连接在一起。 例如,你可以构建一个包含特征提取、特征选择、缩放和分类的管道,总共有 4 个步骤。同样,最后一步可以用回归或聚类代替分类。 对于管道中估计器的唯一要求就是,除了最后一步之外的所有步骤都需要具有
阅读全文
摘要:对于许多机器学习算法,你提供的特定数据表示非常重要。 首先对数据进行缩放,然后手动合并特征,再利用无监督机器学习来学习特征。 因此,大多数机器学习应用不仅需要应用单个算法,而且还需要将许多不同的处理步骤和机器学习模型链接在一起。 举一个例子来说明模型链的重要性。 我们知道,可以通过使用 MinMax
阅读全文