sw_kong

2019年11月26日

摘要：转载自过往记忆大数据 https://www.iteblog.com/archives/2561.html Spark SQL 是 Spark 众多组件中技术最复杂的组件之一，它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持，大大降低了开发人员的学习和使用成本。目前阅读全文

posted @ 2019-11-26 10:46 sw_kong 阅读(2118) 评论(1) 推荐(1) 编辑

2019年11月22日

spark thriftserver

摘要： spark可以作为一个分布式的查询引擎，用户通过JDBC/ODBC的形式无需写任何代码，写写sql就可以实现查询啦，那么我们就可以使用一些支持JDBC/ODBC连接的BI工具（比如tableau）来生成一些报表。 spark thriftserver的实现也是相当于hiveserver2的方式，并且阅读全文

posted @ 2019-11-22 16:22 sw_kong 阅读(4288) 评论(0) 推荐(0) 编辑

编译spark支持thriftserver

摘要： cdh默认把spark的spark-sql以及hive-thriftserver给阉割掉了，想使用thriftserver，于是自己重新编译一个。此外，如果是spark1.6至spark2.1版本，也可以直接从官网下载编译好的包，将thriftserver相关的jar包放到cdh spark对应的阅读全文

posted @ 2019-11-22 09:14 sw_kong 阅读(887) 评论(0) 推荐(0) 编辑

2019年11月21日

hive数据类型

摘要： hive数据类型包括：数字类型，时间类型，string类型，misc类型和复合类型数值类型包括： TINYINT (1-byte,表示从-128到127的整数) SMALLINT (2-byte,表示从-32,768到32,767的整数) INT/INTEGER (4-byte,表示从-2,147 阅读全文

posted @ 2019-11-21 10:24 sw_kong 阅读(1436) 评论(0) 推荐(0) 编辑

2019年11月20日

K均值聚类算法

摘要： k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚阅读全文

posted @ 2019-11-20 14:02 sw_kong 阅读(1285) 评论(0) 推荐(0) 编辑

2019年11月19日

hive表字段注释显示乱码问题

摘要：创建了一张hive表，对字段增加了注释，比如comment '注释内容' 之类的，但是在hive client查看时候却是乱码比如： create table test_ultraedit ( id int comment 'id', name string comment '名字' ); 在hi 阅读全文

posted @ 2019-11-19 15:02 sw_kong 阅读(655) 评论(0) 推荐(0) 编辑

【转】美团 MySQL 数据实时同步到 Hive 的架构与实践

摘要：文章转载自公众号美团技术团队，作者萌萌背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS（Operational Data Store）数据。在互联网企业中，常见的ODS数据有业务日志数据（Log）和业务DB数据（DB）两类。对于业务DB数据来说，从MySQL等关系阅读全文

posted @ 2019-11-19 10:10 sw_kong 阅读(4400) 评论(4) 推荐(0) 编辑

2019年11月14日

排序算法

摘要：冒泡排序（Bubble Sort）实现每一轮，从数组头部开始，每两个元素比较大小并进行交换，直到这一轮当中最大或最小的元素被放置在数组的尾部，然后不断地重复这个过程，直到所有元素都排好位置。其中，核心操作就是元素相互比较。例题给定数组 [2, 1, 7, 9, 5, 8]，要求按照从左到右、阅读全文

posted @ 2019-11-14 10:30 sw_kong 阅读(371) 评论(0) 推荐(0) 编辑

MySQL 索引

摘要： MySQL索引的建立对于MySQL的高效运行是很重要的，索引可以大大提高MySQL的检索速度。打个比方，如果合理的设计且使用索引的MySQL是一辆兰博基尼的话，那么没有设计和使用索引的MySQL就是一个人力三轮车。拿汉语字典的目录页（索引）打比方，我们可以按拼音、笔画、偏旁部首等排序的目录（索引阅读全文

posted @ 2019-11-14 09:54 sw_kong 阅读(100) 评论(0) 推荐(0) 编辑

2019年10月25日

自定义spark UDAF

摘要： Spark提供了两种自定义聚合函数的方法，分别如下： Untyped User-Defined Aggregate Functions 有类型的自定义聚合函数，主要适用于 DataSet Type-Safe User-Defined Aggregate Functions 无类型的自定义聚合函数，主阅读全文

posted @ 2019-10-25 14:15 sw_kong 阅读(297) 评论(0) 推荐(0) 编辑

公告