05 2019 档案

Spark通过修改DataFrame的schema给表字段添加注释（转载）

摘要：转载自：https://www.jianshu.com/p/e4c90dc08935 1、需求背景通过Spark将关系型数据库（以Oracle为例）的表同步的Hive表，要求用Spark建表，有字段注释的也要加上注释。Spark建表，有两种方法：用Spark Sql，在程序里组建表语句，然后用S 阅读全文

posted @ 2019-05-28 20:25 大葱拌豆腐阅读(2972) 评论(0) 推荐(0) 编辑

对有序特征进行离散化（继承Spark的机器学习Estimator类）

摘要：采用信息增益或基尼指数寻找最优离散化点阅读全文

posted @ 2019-05-16 17:11 大葱拌豆腐阅读(702) 评论(0) 推荐(0) 编辑

Spark ML 中 VectorIndexer, StringIndexer等用法（转载）

摘要：VectorIndexer 主要作用：提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别（离散值）特征（index categorical features categorical features ）进行编号。它能够自动判断那些特征是离散值型的特征，并对阅读全文

posted @ 2019-05-16 17:04 大葱拌豆腐阅读(1588) 评论(0) 推荐(0) 编辑

Z-Score数据标准化（转载）

摘要：简介Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。一句话解释版本： Z-Score通过（x-μ）/σ将两组或多组数据转化为无单位的Z-Score分值，使得数据标准统一化，提高了数据可比性，削弱了数据解释性。数据分析与挖掘体系位阅读全文

posted @ 2019-05-14 11:59 大葱拌豆腐阅读(20319) 评论(0) 推荐(1) 编辑

HBase在特征工程中的应用

摘要：前言HBase是一款分布式的NoSQL DB，可以轻松扩展存储和读写能力。主要特性有: 按某精确的key获取对应的value(Get) 通过前缀匹配一段相邻的数据(Scan) 多版本动态列服务端协处理器（可以支持用户自定义） TTL:按时间自动过期今天我们来聊一聊HBase以上特性在特征工程阅读全文

posted @ 2019-05-06 13:58 大葱拌豆腐阅读(593) 评论(0) 推荐(0) 编辑

公告

昵称：大葱拌豆腐
园龄： 9年
粉丝： 258
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

05 2019 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论