随笔分类 - BigData
摘要:Spark RDD:TransformationMeaningmap(func)返回一个新的分布式数据集,该数据集是通过将源的每个元素传递给函数func处理形成的。filter(func)返回一个新的数据集,该数据集是通过func处理后在其上返回true 的源元素形成的。flatMap(func)与map相似,但是每个输入项都可以映射成0个或多个输出项(因此func应该返回Seq而不是单个项)。m...
阅读全文
摘要:在日常数据处理过程中避免不了要计算跨长周期数据指标统计需求,类似于如下: 1、 统计每个城市(过去30天)用户浏览次数; 统计每个城市(本年)用户浏览次数; 统计每个城市(历史至今)用户浏览次数; 2、统计每个城市(过去30天|本年|历史至今)交易用户数; 3、数据集部分数据行存在状态变化数据指标需
阅读全文
摘要:报错如下:Maven install失败Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project autotest_fchtgl: Compilation failure[ERROR] No compiler is provided i...
阅读全文
摘要:1、java版本(spark-2.1.0)package chavin.king;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2...
阅读全文
摘要:1、创建测试表:drop table if exists tab_null_operator;create table tab_null_operator as select 1 as id,'chavin' as name union all select 2 as id,'nope' as name union all select 3 as id,'' as name union all s...
阅读全文
摘要:一、软件环境:操作系统:CentOS release 6.5 (Final)java版本: jdk1.8zookeeper版本: zookeeper-3.4.11kafka 版本: kafka_2.11-1.1.0.tgzmaxwell版本:maxwell-1.16.0.tar.gz注意 : 关闭所有机器的防火墙,同时注意启动可以相互telnet ip 端口二、环境部署1、安装jdkexport ...
阅读全文
摘要:hive的高级数据类型主要包括:数组类型、map类型、结构体类型、集合类型,以下将分别详细介绍。1)数组类型array_type:array-- 建表语句create table test.array_table(name string,age int,addr array)row format delimited fields terminated by ',' collectio...
阅读全文
摘要:一、ambari及HDP安装文件下载地址:1、系统操作系统:CentOS72、软件本次安装采用最新版本:ambari-2.7.0.0hdp-3.0.0.0详细信息及下载地址如下:Ambari 2.7.0 RepositoriesBase URL :http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0Repo ...
阅读全文
摘要:1、hive取得当前日期时间:1.1) 取得当前日期:select current_date();1.2) 取得当前日期时间:select current_timestamp();1.3) hive取得当前时间戳:select unix_timestamp();1.4) 时间戳转日期:select from_unixtime(1517725479,'yyyy-MM-dd HH:dd:ss');1....
阅读全文
摘要:一、基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个或多个节点组织在一起,它们共...
阅读全文
摘要:1、安装java、maven、scala、hadoop、mysql、hive略2、编译spark./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided"3、安装sparktar -zxvf spark-1.6.0-bin-hadoop2-without-hive.t...
阅读全文
摘要:简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点· Spark可以部署在YARN上· Spark原生支持对HDFS文件系统的访问...
阅读全文
摘要:1、安装hadoop集群参考:http://www.cnblogs.com/wcwen1990/p/6739151.html2、安装hive参考:http://www.cnblogs.com/wcwen1990/p/6757240.html3、安装配置spark编译spark:http://www.cnblogs.com/wcwen1990/p/7688027.html部署参考:http://ww...
阅读全文
摘要:Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Spark streaming集成kafka是企业应用中最为常见的一种场景。一、安装kafka参考文档:http://kafka.ap...
阅读全文
摘要:Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。一、kafka体系架构一个典型的Kafka体系架构包括若干Producer(可以是服务器日志,业务数据,页面前端产生的page vie...
阅读全文
摘要:1、 安装flumeflume安装,解压后修改flume_env.sh配置文件,指定java_home即可。cp hdfs jar包到flume lib目录下(否则无法抽取数据到hdfs上):$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop/hdfs/hadoop-hdfs-2.5.0-cdh5.3.6.jar /opt/cdh-5.3....
阅读全文
摘要:一、spark streaming简介Streaming是一种数据传输技术,它把客户机收到的数据变成一个稳定连续的流,源源不断的输出,使用户听到的声音和图像十分稳定,而用户在整个文件传输完成开始前就可以浏览文件。常见的流式计算框架:l Apache storml Spark streamingl Apache samza上述三种实时计算系统都是开源分布式系统,具有低延迟,可扩展和容错性诸多优点,他...
阅读全文
摘要:一、idea社区版安装scala插件因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安装scala插件,具体安装办法如下。1、打开idea,点击configure下拉菜单中的plugins选项:2、在弹出对话框中点击红框按钮:3、在弹出最新对话框的搜索栏输入scala,在筛选出的内容中选择红框部分,点击右侧install按钮开始下载插件:本人在测试...
阅读全文
摘要:一、Presto简介1、PRESTO是什么?Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。2、它可以做什么?Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数...
阅读全文
摘要:1、参考文档:spark-1.3.0:http://spark.apache.org/docs/1.3.0/running-on-yarn.htmlspark-1.6.0:http://spark.apache.org/docs/1.6.0/running-on-yarn.html备注:从spark-1.6.0开始,spark on yarn命令有略微改变,具体参考官方文档,这里以spark 1....
阅读全文