03 2019 档案
摘要:多元函数的Hessian矩阵就类似一元函数的二阶导。 多元函数Hessian矩阵半正定就相当于一元函数二阶导非负,半负定就相当于一元函数二阶导非正。如果这个类比成立的话,凸函数的Hessian恒半正定就非常容易理解了——这是一元凸函数二阶导必非负的多元拓展。 至于为什么这个类是有道理的,你要这么看。
阅读全文
摘要:1.什么是拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 我们先看一个示例,这就是一张拉链表,存储的是汇率以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。我们首先
阅读全文
摘要:变量的KS值 KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距 。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这里的KS值是变量的KS值,而不是模型的KS值。(后面的模
阅读全文
摘要:1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自
阅读全文
摘要:1.定义 分箱就是将连续变量离散化,将多状态的离散变量合并成少状态。 2.分箱的用处 离散特征的增加和减少都很容易,易于模型的快速迭代; 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 列表内容离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化
阅读全文
摘要:1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等;相比print,具备如下优点: log4j定义了8个级别的log(除去OFF和ALL,可以说分为6个级别),优先级从高到低依次为:OFF、FATAL
阅读全文
摘要:如何hive视图 1.mysql数据库 2.找hive库 3.观表 4.TBLS表结构 5.根据TBL_TYPE找到视图 6.查看存储库信息的DBS表 7.如何删除视图跑路的脚本如下 7.1连接mysql (('big12', 'a'), ('big12', 'a1'), ('big12', 'a2
阅读全文