摘要: 文章目录 问题描述 解决方法 文章目录 问题描述 解决方法 问题描述 解决方法 问题描述 解决方法 问题描述 解决方法 问题描述 之前项目一直使用pig进行数据迁移,输出文件的类型是Avro。 一开始都是将字段设为string类型,但后来随着上有数据类型变得复杂,原来pig脚本已经无法使用。 因为我 阅读全文
posted @ 2019-02-24 22:01 LestatZ 阅读(323) 评论(0) 推荐(0) 编辑
摘要: Avro中的复杂类型 Avro支持六种复杂类型: records enums arrays maps unions fixed Unions类型介绍 Unions使用JSON数组表示。 例如,[“null”,“string”]声明一个字段的类型可以是null或string。 注意 当替类型为unio 阅读全文
posted @ 2019-02-24 20:39 LestatZ 阅读(574) 评论(0) 推荐(0) 编辑
摘要: 文章目录概述L1和L2的区别? 为什么L2能提升泛化能力(减少预测误差,防止过拟合?)L1正则化有哪些好处L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节为什么要做数据归一化?归一化方式交叉熵cross entropy损失函数?0-1分类的交叉熵... 阅读全文
posted @ 2019-02-24 10:43 LestatZ 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 文章目录概述集成学习树集成模型有哪几种形式?Boosting和bagging的区别Bagging为什么能减小方差概述基本推导和理论还是以看李航老师的《统计学习方法》为主。各种算法的原理,推荐理解到可以手撕的程度。以下为通过网络资源搜集整理的一些问题及答案,准... 阅读全文
posted @ 2019-02-24 09:28 LestatZ 阅读(556) 评论(0) 推荐(0) 编辑
摘要: 文章目录概述决策树笔记随机森林优缺点GBDT的原理, 如何做分类和回归GBDT分类树拟合的是什么GBDT+ LR 是怎么做的CART分类回归树和ID3以及C4.5有什么区别决策树的优点和缺点RF, GBDT, XGBOOST, XGB的区别改变随机森林的训练... 阅读全文
posted @ 2019-02-24 09:23 LestatZ 阅读(1088) 评论(0) 推荐(0) 编辑
摘要: 文章目录概述SVM原理及推导SVM与随机森林比较SVM为什么要引入拉格朗日的优化方法。SVM原问题和对偶问题关系?SVM在哪个地方引入的核函数, 如果用高斯核可以升到多少维?SVM怎么防止过拟合 ?SVM的目标函数。常用的核函数。SVM硬软间隔对偶的推导概述... 阅读全文
posted @ 2019-02-24 09:09 LestatZ 阅读(1710) 评论(0) 推荐(0) 编辑
摘要: 文章目录概述logistics公式及推导LR为什么用sigmoid函数, 为什么不用其他函数?这个函数有什么优点和缺点?逻辑斯蒂回归怎么实现多分类?Softmax公式逻辑回归估计参数时的目标函数,如果加上一个先验的服从高斯分布的假设,会是什么样?LR和SVM... 阅读全文
posted @ 2019-02-24 08:57 LestatZ 阅读(1216) 评论(0) 推荐(0) 编辑