摘要:
转载自过往记忆大数据 https://www.iteblog.com/archives/2561.html Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前 阅读全文
摘要:
spark可以作为一个分布式的查询引擎,用户通过JDBC/ODBC的形式无需写任何代码,写写sql就可以实现查询啦,那么我们就可以使用一些支持JDBC/ODBC连接的BI工具(比如tableau)来生成一些报表。 spark thriftserver的实现也是相当于hiveserver2的方式,并且 阅读全文
摘要:
cdh默认把spark的spark-sql以及hive-thriftserver给阉割掉了,想使用thriftserver,于是自己重新编译一个。 此外,如果是spark1.6至spark2.1版本,也可以直接从官网下载编译好的包,将thriftserver相关的jar包放到cdh spark对应的 阅读全文
摘要:
hive数据类型包括:数字类型,时间类型,string类型,misc类型和复合类型 数值类型包括: TINYINT (1-byte,表示从-128到127的整数) SMALLINT (2-byte,表示从-32,768到32,767的整数) INT/INTEGER (4-byte,表示从-2,147 阅读全文
摘要:
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚 阅读全文
摘要:
创建了一张hive表,对字段增加了注释,比如comment '注释内容' 之类的,但是在hive client查看时候却是乱码 比如: create table test_ultraedit ( id int comment 'id', name string comment '名字' ); 在hi 阅读全文
摘要:
文章转载自公众号 美团技术团队 , 作者 萌萌 背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系 阅读全文
摘要:
冒泡排序(Bubble Sort) 实现 每一轮,从数组头部开始,每两个元素比较大小并进行交换,直到这一轮当中最大或最小的元素被放置在数组的尾部,然后不断地重复这个过程,直到所有元素都排好位置。其中,核心操作就是元素相互比较。 例题 给定数组 [2, 1, 7, 9, 5, 8],要求按照从左到右、 阅读全文
摘要:
MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。 打个比方,如果合理的设计且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL就是一个人力三轮车。 拿汉语字典的目录页(索引)打比方,我们可以按拼音、笔画、偏旁部首等排序的目录(索引 阅读全文
摘要:
Spark提供了两种自定义聚合函数的方法,分别如下: Untyped User-Defined Aggregate Functions 有类型的自定义聚合函数,主要适用于 DataSet Type-Safe User-Defined Aggregate Functions 无类型的自定义聚合函数,主 阅读全文