05 2019 档案
摘要:转载自:https://www.jianshu.com/p/e4c90dc08935 1、需求背景 通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法: 用Spark Sql,在程序里组建表语句,然后用S
阅读全文
摘要:采用信息增益或基尼指数寻找最优离散化点
阅读全文
摘要:VectorIndexer 主要作用:提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features categorical features )进行编号。它能够自动判断那些特征是离散值型的特征,并对
阅读全文
摘要:简介Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。 一句话解释版本: Z-Score通过(x-μ)/σ将两组或多组数据转化为无单位的Z-Score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。 数据分析与挖掘体系位
阅读全文
摘要:前言HBase是一款分布式的NoSQL DB,可以轻松扩展存储和读写能力。 主要特性有: 按某精确的key获取对应的value(Get) 通过前缀匹配一段相邻的数据(Scan) 多版本 动态列 服务端协处理器(可以支持用户自定义) TTL:按时间自动过期 今天我们来聊一聊HBase以上特性在特征工程
阅读全文