BigData - 随笔分类 - ChavinKing

Spark核心算子

摘要：Spark RDD：TransformationMeaningmap(func)返回一个新的分布式数据集，该数据集是通过将源的每个元素传递给函数func处理形成的。filter(func)返回一个新的数据集，该数据集是通过func处理后在其上返回true 的源元素形成的。flatMap(func)与map相似，但是每个输入项都可以映射成0个或多个输出项（因此func应该返回Seq而不是单个项）。m... 阅读全文

posted @ 2020-02-28 02:11 ChavinKing 阅读(531) 评论(0) 推荐(0)

增量ETL (长周期指标) 优化方案

摘要：在日常数据处理过程中避免不了要计算跨长周期数据指标统计需求，类似于如下： 1、统计每个城市(过去30天)用户浏览次数；统计每个城市(本年)用户浏览次数；统计每个城市(历史至今)用户浏览次数； 2、统计每个城市(过去30天|本年|历史至今)交易用户数； 3、数据集部分数据行存在状态变化数据指标需阅读全文

posted @ 2019-12-10 17:07 ChavinKing 阅读(892) 评论(0) 推荐(0)

eclipse maven工程打包失败

摘要：报错如下：Maven install失败Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project autotest_fchtgl: Compilation failure[ERROR] No compiler is provided i... 阅读全文

posted @ 2019-01-23 17:46 ChavinKing 阅读(2204) 评论(0) 推荐(0)

Spark开发wordcount程序

摘要：1、java版本（spark-2.1.0）package chavin.king;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2... 阅读全文

posted @ 2019-01-11 06:18 ChavinKing 阅读(655) 评论(0) 推荐(0)

SQL之NULL值的几种处理方式

摘要：1、创建测试表：drop table if exists tab_null_operator;create table tab_null_operator as select 1 as id,'chavin' as name union all select 2 as id,'nope' as name union all select 3 as id,'' as name union all s... 阅读全文

posted @ 2018-11-29 16:39 ChavinKing 阅读(4332) 评论(0) 推荐(0)

使用maxwell实时同步mysql数据到kafka

摘要：一、软件环境：操作系统：CentOS release 6.5 (Final)java版本: jdk1.8zookeeper版本: zookeeper-3.4.11kafka 版本: kafka_2.11-1.1.0.tgzmaxwell版本：maxwell-1.16.0.tar.gz注意：关闭所有机器的防火墙，同时注意启动可以相互telnet ip 端口二、环境部署1、安装jdkexport ... 阅读全文

posted @ 2018-10-19 17:58 ChavinKing 阅读(3826) 评论(0) 推荐(2)

hive高级数据类型

摘要：hive的高级数据类型主要包括：数组类型、map类型、结构体类型、集合类型，以下将分别详细介绍。1）数组类型array_type：array-- 建表语句create table test.array_table(name string,age int,addr array)row format delimited fields terminated by ',' collectio... 阅读全文

posted @ 2018-10-11 12:16 ChavinKing 阅读(1242) 评论(0) 推荐(0)

基于hortonworks的大数据集群环境部署流水

摘要：一、ambari及HDP安装文件下载地址：1、系统操作系统：CentOS72、软件本次安装采用最新版本：ambari-2.7.0.0hdp-3.0.0.0详细信息及下载地址如下：Ambari 2.7.0 RepositoriesBase URL ：http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0Repo ... 阅读全文

posted @ 2018-10-04 21:44 ChavinKing 阅读(943) 评论(0) 推荐(0)

hive时间日期函数及典型场景应用

摘要：1、hive取得当前日期时间：1.1) 取得当前日期：select current_date();1.2) 取得当前日期时间：select current_timestamp();1.3) hive取得当前时间戳：select unix_timestamp();1.4) 时间戳转日期：select from_unixtime(1517725479,'yyyy-MM-dd HH:dd:ss');1.... 阅读全文

posted @ 2018-03-05 18:17 ChavinKing 阅读(17342) 评论(0) 推荐(0)

elastricsearch学习笔记

摘要：一、基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。接近实时（NRT） Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟（通常是1秒）。集群（cluster）一个集群就是由一个或多个节点组织在一起，它们共... 阅读全文

posted @ 2017-12-10 21:46 ChavinKing 阅读(529) 评论(0) 推荐(0)

hive on spark配置

摘要：1、安装java、maven、scala、hadoop、mysql、hive略2、编译spark./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided"3、安装sparktar -zxvf spark-1.6.0-bin-hadoop2-without-hive.t... 阅读全文

posted @ 2017-12-03 19:03 ChavinKing 阅读(1006) 评论(0) 推荐(0)

SparkSQL与Hive on Spark的比较

摘要：简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中，Spark和MapReduce在同一个层级，即主要解决分布式计算框架的问题。架构Spark的架构如下图所示，主要包含四大组件：Driver、Master、Worker和Executor。Spark特点· Spark可以部署在YARN上· Spark原生支持对HDFS文件系统的访问... 阅读全文

posted @ 2017-11-26 17:11 ChavinKing 阅读(20687) 评论(0) 推荐(1)

spark-sql(spark sql cli)客户端集成hive

摘要：1、安装hadoop集群参考：http://www.cnblogs.com/wcwen1990/p/6739151.html2、安装hive参考：http://www.cnblogs.com/wcwen1990/p/6757240.html3、安装配置spark编译spark：http://www.cnblogs.com/wcwen1990/p/7688027.html部署参考：http://ww... 阅读全文

posted @ 2017-11-26 16:58 ChavinKing 阅读(2260) 评论(0) 推荐(0)

spark streaming集成kafka

摘要：Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Spark streaming集成kafka是企业应用中最为常见的一种场景。一、安装kafka参考文档：http://kafka.ap... 阅读全文

posted @ 2017-11-26 15:51 ChavinKing 阅读(598) 评论(0) 推荐(0)

消息系统kafka原理解析

摘要：Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。一、kafka体系架构一个典型的Kafka体系架构包括若干Producer（可以是服务器日志，业务数据，页面前端产生的page vie... 阅读全文

posted @ 2017-11-26 03:51 ChavinKing 阅读(2272) 评论(0) 推荐(0)

spark streaming集成flume

摘要：1、安装flumeflume安装，解压后修改flume_env.sh配置文件，指定java_home即可。cp hdfs jar包到flume lib目录下（否则无法抽取数据到hdfs上）：$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop/hdfs/hadoop-hdfs-2.5.0-cdh5.3.6.jar /opt/cdh-5.3.... 阅读全文

posted @ 2017-11-26 02:46 ChavinKing 阅读(360) 评论(0) 推荐(0)

Spark Streaming实战演练

摘要：一、spark streaming简介Streaming是一种数据传输技术，它把客户机收到的数据变成一个稳定连续的流，源源不断的输出，使用户听到的声音和图像十分稳定，而用户在整个文件传输完成开始前就可以浏览文件。常见的流式计算框架：l Apache storml Spark streamingl Apache samza上述三种实时计算系统都是开源分布式系统，具有低延迟，可扩展和容错性诸多优点，他... 阅读全文

posted @ 2017-11-19 22:08 ChavinKing 阅读(493) 评论(0) 推荐(0)

通过IDEA搭建scala开发环境开发spark应用程序

摘要：一、idea社区版安装scala插件因为idea默认不支持scala开发环境，所以当需要使用idea搭建scala开发环境时，首先需要安装scala插件，具体安装办法如下。1、打开idea，点击configure下拉菜单中的plugins选项：2、在弹出对话框中点击红框按钮：3、在弹出最新对话框的搜索栏输入scala，在筛选出的内容中选择红框部分，点击右侧install按钮开始下载插件：本人在测试... 阅读全文

posted @ 2017-11-19 18:56 ChavinKing 阅读(28940) 评论(0) 推荐(0)

Presto实战

摘要：一、Presto简介1、PRESTO是什么？Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。2、它可以做什么？Presto支持在线数据查询，包括Hive, Cassandra, 关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数... 阅读全文

posted @ 2017-11-18 22:08 ChavinKing 阅读(26926) 评论(0) 推荐(0)

spark on yarn详解

摘要：1、参考文档：spark-1.3.0：http://spark.apache.org/docs/1.3.0/running-on-yarn.htmlspark-1.6.0：http://spark.apache.org/docs/1.6.0/running-on-yarn.html备注：从spark-1.6.0开始，spark on yarn命令有略微改变，具体参考官方文档，这里以spark 1.... 阅读全文

posted @ 2017-11-14 23:09 ChavinKing 阅读(577) 评论(0) 推荐(0)

随笔分类 - BigData

公告