lillcol

2019年7月22日

摘要： Spark 版本 2.3 文中测试数据（json）用户自定义udf 自定义udf的方式有两种 1. SQLContext.udf.register() 2. 创建UserDefinedFunction 这两种个方式使用范围不一样 package com.test.spark import org 阅读全文

posted @ 2019-07-22 22:52 lillcol 阅读(1296) 评论(0) 推荐(0)

Spark 读写数据、抽象转换拾遗

摘要：读 package com.test.spark import org.apache.spark.sql.{Dataset, Row, SaveMode, SparkSession} / @author Administrator 2019/7/22 17:09 / object TestReadD 阅读全文

posted @ 2019-07-22 22:51 lillcol 阅读(549) 评论(0) 推荐(0)

2019年7月19日

Storm 测试

摘要：本文将学习如何使用java创建Storm拓扑 Storm集群的组件 Storm集群类似于Hadoop集群，只不过 Hadoop 上运行"MapReduce jobs"， Storm 上运行"topologies"。两者最大的差别是，MapReducejobs 最终是完成的，而 topologies 阅读全文

posted @ 2019-07-19 11:48 lillcol 阅读(748) 评论(0) 推荐(0)

2019年7月16日

hive 总结四（优化）

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。表的优化小表join大表、大表join小表将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用map join让小的维度表（1 阅读全文

posted @ 2019-07-16 22:43 lillcol 阅读(733) 评论(0) 推荐(0)

hive 总结三（压缩）

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。查看配置命令如下，对应的设置只要加上相关值即可,如下当 Hive 将输出写入到表中时，输出阅读全文

posted @ 2019-07-16 22:30 lillcol 阅读(4006) 评论(0) 推荐(0)

2019年7月15日

hive 总结二

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。查询函数（Hive高级） NVL(cloumn,replace_with) 如果cloumn为NULL，则NVL函数返回 replace_with 的值；否则返回cloumn的值；如果两个阅读全文

posted @ 2019-07-15 21:52 lillcol 阅读(571) 评论(0) 推荐(1)

hive 总结一

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。上传数据 1. 上传数据后执行修复 msck 命令 2. 上传数据后添加分区 3. 创建文件夹后load数据到分区（最常用） Export导出数据 like和rlike 1）使用LIKE运算选阅读全文

posted @ 2019-07-15 21:50 lillcol 阅读(365) 评论(0) 推荐(0)

2019年7月11日

常见排序算法

摘要：定义假设含有n个记录的序列为{r1,r2,…,rn}，其相应的关键字分别为{k1,k2,…,kn}，需确定1,2, 3, …, n的一种排列p1,p2,…,pn，使其相应的关键字满足kp1 ≤kp2≤…≤kpn非递减（或非递增）关系，即使得序列变成一个按关键字有序的序列{r 阅读全文

posted @ 2019-07-11 19:02 lillcol 阅读(198) 评论(0) 推荐(0)

2019年7月10日

HBase 入门

摘要： Hbase简介 "参考：Hbase技术详细学习笔记" "如何合理的设计HBase RowKey?" Hbase是分布式、面向列的开源数据库（其实准确的说是面向列族）。 HDFS为Hbase提供可靠的底层数据存储服务； MapReduce为Hbase提供高性能的计算能力； Zookeeper为Hbas 阅读全文

posted @ 2019-07-10 22:07 lillcol 阅读(432) 评论(0) 推荐(0)

2019年7月9日

Spark:三种任务提交流程standalone、yarn-cluster、yarn-client

摘要： spark的runtime "参考:Spark:Yarn cluster和Yarn client区别与联系" 浪尖分享资料 standalone Spark可以通过部署与Yarn的架构类似的框架来提供自己的集群模式。该集群模式的架构设计与HDFS和Yarn大相径庭，都是由一个主节点多个从节点组成。阅读全文

posted @ 2019-07-09 18:05 lillcol 阅读(5331) 评论(1) 推荐(0)

公告