05 2019 档案

摘要:转载自:https://www.jianshu.com/p/e4c90dc08935 1、需求背景 通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法: 用Spark Sql,在程序里组建表语句,然后用S 阅读全文
posted @ 2019-05-28 20:25 大葱拌豆腐 阅读(2972) 评论(0) 推荐(0) 编辑
摘要:采用信息增益或基尼指数寻找最优离散化点 阅读全文
posted @ 2019-05-16 17:11 大葱拌豆腐 阅读(702) 评论(0) 推荐(0) 编辑
摘要:VectorIndexer 主要作用:提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features categorical features )进行编号。它能够自动判断那些特征是离散值型的特征,并对 阅读全文
posted @ 2019-05-16 17:04 大葱拌豆腐 阅读(1588) 评论(0) 推荐(0) 编辑
摘要:简介Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。 一句话解释版本: Z-Score通过(x-μ)/σ将两组或多组数据转化为无单位的Z-Score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。 数据分析与挖掘体系位 阅读全文
posted @ 2019-05-14 11:59 大葱拌豆腐 阅读(20319) 评论(0) 推荐(1) 编辑
摘要:前言HBase是一款分布式的NoSQL DB,可以轻松扩展存储和读写能力。 主要特性有: 按某精确的key获取对应的value(Get) 通过前缀匹配一段相邻的数据(Scan) 多版本 动态列 服务端协处理器(可以支持用户自定义) TTL:按时间自动过期 今天我们来聊一聊HBase以上特性在特征工程 阅读全文
posted @ 2019-05-06 13:58 大葱拌豆腐 阅读(593) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示