随笔分类 -  BigData

摘要:Spark RDD:TransformationMeaningmap(func)返回一个新的分布式数据集,该数据集是通过将源的每个元素传递给函数func处理形成的。filter(func)返回一个新的数据集,该数据集是通过func处理后在其上返回true 的源元素形成的。flatMap(func)与map相似,但是每个输入项都可以映射成0个或多个输出项(因此func应该返回Seq而不是单个项)。m... 阅读全文
posted @ 2020-02-28 02:11 ChavinKing 阅读(502) 评论(0) 推荐(0) 编辑
摘要:在日常数据处理过程中避免不了要计算跨长周期数据指标统计需求,类似于如下: 1、 统计每个城市(过去30天)用户浏览次数; 统计每个城市(本年)用户浏览次数; 统计每个城市(历史至今)用户浏览次数; 2、统计每个城市(过去30天|本年|历史至今)交易用户数; 3、数据集部分数据行存在状态变化数据指标需 阅读全文
posted @ 2019-12-10 17:07 ChavinKing 阅读(837) 评论(0) 推荐(0) 编辑
摘要:报错如下:Maven install失败Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project autotest_fchtgl: Compilation failure[ERROR] No compiler is provided i... 阅读全文
posted @ 2019-01-23 17:46 ChavinKing 阅读(2165) 评论(0) 推荐(0) 编辑
摘要:1、java版本(spark-2.1.0)package chavin.king;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2... 阅读全文
posted @ 2019-01-11 06:18 ChavinKing 阅读(638) 评论(0) 推荐(0) 编辑
摘要:1、创建测试表:drop table if exists tab_null_operator;create table tab_null_operator as select 1 as id,'chavin' as name union all select 2 as id,'nope' as name union all select 3 as id,'' as name union all s... 阅读全文
posted @ 2018-11-29 16:39 ChavinKing 阅读(4293) 评论(0) 推荐(0) 编辑
摘要:一、软件环境:操作系统:CentOS release 6.5 (Final)java版本: jdk1.8zookeeper版本: zookeeper-3.4.11kafka 版本: kafka_2.11-1.1.0.tgzmaxwell版本:maxwell-1.16.0.tar.gz注意 : 关闭所有机器的防火墙,同时注意启动可以相互telnet ip 端口二、环境部署1、安装jdkexport ... 阅读全文
posted @ 2018-10-19 17:58 ChavinKing 阅读(3759) 评论(0) 推荐(2) 编辑
摘要:hive的高级数据类型主要包括:数组类型、map类型、结构体类型、集合类型,以下将分别详细介绍。1)数组类型array_type:array-- 建表语句create table test.array_table(name string,age int,addr array)row format delimited fields terminated by ',' collectio... 阅读全文
posted @ 2018-10-11 12:16 ChavinKing 阅读(1219) 评论(0) 推荐(0) 编辑
摘要:一、ambari及HDP安装文件下载地址:1、系统操作系统:CentOS72、软件本次安装采用最新版本:ambari-2.7.0.0hdp-3.0.0.0详细信息及下载地址如下:Ambari 2.7.0 RepositoriesBase URL :http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0Repo ... 阅读全文
posted @ 2018-10-04 21:44 ChavinKing 阅读(922) 评论(0) 推荐(0) 编辑
摘要:1、hive取得当前日期时间:1.1) 取得当前日期:select current_date();1.2) 取得当前日期时间:select current_timestamp();1.3) hive取得当前时间戳:select unix_timestamp();1.4) 时间戳转日期:select from_unixtime(1517725479,'yyyy-MM-dd HH:dd:ss');1.... 阅读全文
posted @ 2018-03-05 18:17 ChavinKing 阅读(17063) 评论(0) 推荐(0) 编辑
摘要:一、基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个或多个节点组织在一起,它们共... 阅读全文
posted @ 2017-12-10 21:46 ChavinKing 阅读(484) 评论(0) 推荐(0) 编辑
摘要:1、安装java、maven、scala、hadoop、mysql、hive略2、编译spark./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided"3、安装sparktar -zxvf spark-1.6.0-bin-hadoop2-without-hive.t... 阅读全文
posted @ 2017-12-03 19:03 ChavinKing 阅读(977) 评论(0) 推荐(0) 编辑
摘要:简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点· Spark可以部署在YARN上· Spark原生支持对HDFS文件系统的访问... 阅读全文
posted @ 2017-11-26 17:11 ChavinKing 阅读(20613) 评论(0) 推荐(1) 编辑
摘要:1、安装hadoop集群参考:http://www.cnblogs.com/wcwen1990/p/6739151.html2、安装hive参考:http://www.cnblogs.com/wcwen1990/p/6757240.html3、安装配置spark编译spark:http://www.cnblogs.com/wcwen1990/p/7688027.html部署参考:http://ww... 阅读全文
posted @ 2017-11-26 16:58 ChavinKing 阅读(2215) 评论(0) 推荐(0) 编辑
摘要:Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Spark streaming集成kafka是企业应用中最为常见的一种场景。一、安装kafka参考文档:http://kafka.ap... 阅读全文
posted @ 2017-11-26 15:51 ChavinKing 阅读(572) 评论(0) 推荐(0) 编辑
摘要:Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。一、kafka体系架构一个典型的Kafka体系架构包括若干Producer(可以是服务器日志,业务数据,页面前端产生的page vie... 阅读全文
posted @ 2017-11-26 03:51 ChavinKing 阅读(2244) 评论(0) 推荐(0) 编辑
摘要:1、 安装flumeflume安装,解压后修改flume_env.sh配置文件,指定java_home即可。cp hdfs jar包到flume lib目录下(否则无法抽取数据到hdfs上):$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop/hdfs/hadoop-hdfs-2.5.0-cdh5.3.6.jar /opt/cdh-5.3.... 阅读全文
posted @ 2017-11-26 02:46 ChavinKing 阅读(332) 评论(0) 推荐(0) 编辑
摘要:一、spark streaming简介Streaming是一种数据传输技术,它把客户机收到的数据变成一个稳定连续的流,源源不断的输出,使用户听到的声音和图像十分稳定,而用户在整个文件传输完成开始前就可以浏览文件。常见的流式计算框架:l Apache storml Spark streamingl Apache samza上述三种实时计算系统都是开源分布式系统,具有低延迟,可扩展和容错性诸多优点,他... 阅读全文
posted @ 2017-11-19 22:08 ChavinKing 阅读(471) 评论(0) 推荐(0) 编辑
摘要:一、idea社区版安装scala插件因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安装scala插件,具体安装办法如下。1、打开idea,点击configure下拉菜单中的plugins选项:2、在弹出对话框中点击红框按钮:3、在弹出最新对话框的搜索栏输入scala,在筛选出的内容中选择红框部分,点击右侧install按钮开始下载插件:本人在测试... 阅读全文
posted @ 2017-11-19 18:56 ChavinKing 阅读(28749) 评论(0) 推荐(0) 编辑
摘要:一、Presto简介1、PRESTO是什么?Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。2、它可以做什么?Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数... 阅读全文
posted @ 2017-11-18 22:08 ChavinKing 阅读(26775) 评论(0) 推荐(0) 编辑
摘要:1、参考文档:spark-1.3.0:http://spark.apache.org/docs/1.3.0/running-on-yarn.htmlspark-1.6.0:http://spark.apache.org/docs/1.6.0/running-on-yarn.html备注:从spark-1.6.0开始,spark on yarn命令有略微改变,具体参考官方文档,这里以spark 1.... 阅读全文
posted @ 2017-11-14 23:09 ChavinKing 阅读(544) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示