11 2018 档案
摘要:1、通用参数(控制Xgboost的宏观功能) booster: [default=gbtree] gbtree: tree-based models,树模型做为基分类器 gblinear: linear models,线性模型做为基分类器 silent:[default=True] silent=T
阅读全文
摘要:一、定义 数据分箱就是将连续变量离散化。 二、意义 • 离散特征可变性强,易于模型的快速迭代; • 稀疏向量运算速度快,方便存储; • 变量离散化后对异常数据有很强的鲁棒性; • 特征离散以后,模型会更加稳定; • 将逻辑回归模型转换成评分卡形式的时候,分箱也是必须的。 三、分类 四、卡方分箱 (1
阅读全文
摘要:一、定义 多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在较精确相关关系或高度相关关系而使模型估计失真或难以估计准确。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。 二. 目前常用的多重共线性诊断方法 1.自变量的相关系数矩阵R诊断
阅读全文
摘要:One-Hot独热编码 Dummy Encoding VS One-Hot Encoding二者都可以对Categorical Variable做处理,定性特征转换为定量特征,转换为定量特征其实就是将原来每个特征的类别拿出来作为一个新的特征(Dummy Variable)了,如性别——男,女,定量特
阅读全文
摘要:数据结构 提问:我们如何用Python中的类型来保存一个班的学生信息? 如果想要快速的通过学生姓名获取其信息呢? 实际上当我们在思考这个问题的时候,我们已经用到了数据结构。列表和字典都可以存储一个班的学生信息,但是想要在列表中获取一名同学的信息时,就要遍历这个列表,其时间复杂度为O(n),而使用字典
阅读全文
摘要:Python内置类型性能分析 timeit模块 timeit模块可以用来测试一小段Python代码的执行速度。 class timeit.Timer(stmt='pass',setup='pass',timer=<timer function>) Timer 是测量小段代码执行速度的类; stmt参
阅读全文
摘要:数据结构与算法——b站学习笔记 引入: 先来看一道题: 如果a+b+c=1000,且a^2+b^2=c^2(a,b,c为自然数),如何求出所有a,b,c可能的组合? 算法: 计算机处理信息的本质,因为计算机程序本质是一个算法来告诉计算机确切的步骤来执行一个制定的任务。 算法是一个独立存在的一种解决问
阅读全文
摘要:本文部分内容为了上传便捷使用截图。 数据分析流程 特征工程框架图: 具体步骤及内容: 1获取数据 2 数据预处理 2.1 特征工程 2.1.1 特征理解 拿到数据的第一件事情当然是看数据怎么样了,也就是看里面有什么特征,这些特征是什么意思,这个过程叫做特征理解。 看看数据是不是结构化的,是不是有空缺
阅读全文

浙公网安备 33010602011771号