06 2019 档案
摘要:1.生产者命令: ./kafka-console-producer.sh --topic mytopic --broker-list node06:9092,node07:9092,node08:9092 2.消费者命令: ./kafka-console-consumer.sh --bootstra
阅读全文
摘要:一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎:
阅读全文
摘要:1.官网下载 下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、M
阅读全文
摘要:1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 3
阅读全文
摘要:阅读目录 先解释下Java中的对象序列化 关于transient关键字 举个例子 参考资料 先解释下Java中的对象序列化 关于transient关键字 举个例子 参考资料 先解释下Java中的对象序列化 在讨论transient之前,有必要先搞清楚Java中序列化的含义; Java中对象的序列化指
阅读全文
摘要:在yarn-site.xml配置文件中添加如下内容: ##开启日志聚集功能 <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property>##日志保存7天(单位秒) <property> <nam
阅读全文
摘要:spark监控应用方式: 1)在运行过程中可以通过web Ui:4040端口进行监控 2)任务运行完成想要监控spark,需要启动日志聚集功能 开启日志聚集功能方法: 编辑conf/spark-env.sh文件,在其中加入如下部分: SPARK_HISTORY_OPTS=-Dspark.histor
阅读全文
摘要:梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体
阅读全文
摘要:一、回到上次操作的目录 # cd -进入上次访问目录二、历史命令搜索操作快捷键:[Ctrl + r], [Ctrl + p], [Ctrl + n]在终端中按捉 [Ctrl] 键的同时 [r] 键,出现提示:(reverse-i-search), 此时你尝试一下输入你以前输入过的命令,当你每输入一个
阅读全文
摘要:1.查看快捷键定义的地方 Window->Preferences->General->Keys。 2.更改启动页 在AndroidManifest.xml第一个activity标签项中 android:name=".ResultDemoActivity" ResultDemoActivity改为你想
阅读全文
摘要:在eclipse中如果遇到需要快速在一行代码的上下复制一行的话,有很方便的快捷键可以使用。将光标放到某一行,按住Ctrl+Alt+Down,即可以在下面快速复制一行,按住Ctrl+Alt+Up,即可以在上面快速复制一行。
阅读全文
摘要:Spark以yarn方式运行时抛出异常: cluster.YarnClientSchedulerBackend: Yarn application has already exited with state FINISHED! 解决方案: 主要是给节点分配的内存少,yarn kill了spark a
阅读全文
摘要:所有端口协议均基于TCP。
阅读全文
摘要:将start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数 HDFS_NAMENODE_USER=root HDFS_DATANODE_USER=root HDFS_SECONDARYNAMENODE_USER=root YARN_RESOURCEMANAGER_USER=root
阅读全文
摘要:解决方法:在sbin目录下的spark-config.sh 中添加对应的jdk 路径,然后使用scp -r 命令复制到各个worker节点
阅读全文
摘要:碰到这个问题的时候,是在安装Zookeeper集群的时候,碰到如下问题 这里猜想到是主机的地址没有配对,网上给了方案是重新设置linux的主机名。 Step1:查看当前的主机名 这里的主机名是sxl133,如果没有设置,则是localhost.localdomain,这是linux默认的主机名。 S
阅读全文
摘要:Tachyon是一个以内存为核心的开源分布式存储系统,也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架(如Apache Spark,Hadoop MapReduce, Apache Flink等)提供可靠的内存级的数据共享服务。此外,Tachyon还能够整合众多现有的存储
阅读全文
摘要:机器学习中的基本数学知识 注:本文的代码是使用Python 3写的。 机器学习中的基本数学知识 线性代数(linear algebra) 第一公式 矩阵的操作 换位(transpose) 矩阵乘法 矩阵的各种乘积 内积 外积 元素积(element-wise product/point-wise p
阅读全文
摘要:前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境。 在Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用中,我们已经写好了一个Spark的应用。 本文的目标
阅读全文
摘要:前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境。 在Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用中,我们已经写好了一个Spark的应用。 本文的目标
阅读全文
摘要:Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用
阅读全文
摘要:目标 配置一个spark standalone集群 + akka + kafka + scala的开发环境。 创建一个基于spark的scala工程,并在spark standalone的集群环境中运行。 创建一个基于spark+akka的scala工程,并在spark standalone的集群环
阅读全文
摘要:什么是函数式编程 函数式编程是java8的一大特色,也就是将函数作为一个参数传递给指定方法。别人传的要么是基本数据类型,要么就是地址引用 ,我们要穿一个“动作”。 Stream 说到函数式编程,就不得不提及Stream,Stream跟我们熟知的io流可不是同一个东西,泛指可以顺序执行或者并行执行的元
阅读全文
摘要:一、 并行查询 并行查询允许将一个sql select语句划分为多个较小的查询,每个部分的查询并发地运行,然后将各个部分的结果组合起来,提供最终的结果,多用于全表扫描,索引全扫描等,大表的扫描和连接、创建大的索引、分区索引扫描、大批量插入更新和删除 1. 启用并行查询SQL> ALTER TABLE
阅读全文
摘要:讨论QQ:1586558083 目录 一、简介 1.1 概述 1.2 一个小栗子 2.2 初始化StreamingContext 2.3 离散数据流 (DStreams) 2.4 输入DStream和接收器 2.5 接收器可靠性 二、基本概念 2.1 链接依赖项 三、DStream支持的transf
阅读全文
摘要:讨论QQ:1586558083 目录 一、引言 二、图存储模式 2.1 边分割(Edge-Cut) 2.2 点分割(Vertex-Cut) 2.3 对比 三、图计算模式 3.1 超步 3.2 Pregel模型——像顶点一样思考 3.3 GAS模型——邻居更新模型 正文 回到顶部 一、引言 在了解Gr
阅读全文
摘要:讨论QQ:1586558083 目录 一、图 1.1 基本概念 二、术语 2.1 顶点和边 2.2 有向图和无向图 2.3 有环图和无环图 2.4 度、出边、入边、出度、入度 2.5 超步 三、图处理技术 3.1 图数据库 3.2 图数据查询 3.3 图数据分析 3.4 图数据可视化 正文 回到顶部
阅读全文
摘要:讨论QQ:1586558083 目录 一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 三、SparkStreaming的3个组成部分 四、 离散流(DStream) 五、小栗子 5.1
阅读全文
摘要:讨论QQ:1586558083 目录 一、概述 二、Spark-SQL脚本 正文 回到顶部 一、概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说
阅读全文
摘要:Spark学习之路 (二十一)SparkSQL的开窗函数和DataSet
阅读全文
摘要:讨论QQ:1586558083 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcatio
阅读全文
摘要:讨论QQ:1586558083 目录 一、SparkSQL的进化之路 二、认识SparkSQL 2.1 什么是SparkSQL? 2.2 SparkSQL的作用 2.3 运行原理 2.4 特点 2.5 SparkSession 2.7 DataFrames 三、RDD转换成为DataFrame 3.
阅读全文
摘要:讨论QQ:1586558083 目录 一、分区的概念 二、为什么要进行分区 三、Spark分区原则及方法 3.1 本地模式 3.2 YARN模式 四、分区器 正文 回到顶部 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式
阅读全文
摘要:讨论QQ:1586558083 目录 一、概述 二、源码解读 2.2 find-spark-home 2.3 spark-class 2.4 SparkSubmit 正文 回到顶部 一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spa
阅读全文
摘要:讨论QQ:1586558083 目录 一、启动脚本分析 1.1 start-all.sh 1.2 start-master.sh 1.3 spark-config.sh(1.2的第5步) 1.4 load-spark-env.sh(1.2的第6步) 1.5 spark-env.sh 1.6 spar
阅读全文
摘要:讨论QQ:1586558083 目录 一、概述 二、垃圾收集器(garbage collector (GC)) 是什么? 三、为什么需要GC? 四、为什么需要多种GC? 五、对象存活的判断 六、垃圾回收算法 6.1 标记 -清除算法 6.2 复制算法 6.3 标记-整理算法 6.4 分代收集算法 七
阅读全文
摘要:讨论QQ:1586558083 目录 一、JVM的结构图 1.1 Java内存结构 1.2 如何通过参数来控制各区域的内存大小 1.3 控制参数 1.4 JVM和系统调用之间的关系 二、JVM各区域的作用 2.1 Java堆(Heap) 2.2 方法区(Method Area) 2.3 程序计数器(
阅读全文
摘要:讨论QQ:1586558083 目录 一、概述 二、Spark作业基本运行原理 三、资源参数调优 3.1 num-executors 3.2 executor-memory 3.3 executor-cores 3.4 driver-memory 3.5 spark.default.parallel
阅读全文
摘要:讨论QQ:1586558083 目录 一、概述 二、shuffle的定义 三、ShuffleManager发展概述 四、HashShuffleManager的运行原理 4.1 未经优化的HashShuffleManager 4.2 优化后的HashShuffleManager 五、SortShuff
阅读全文
摘要:讨论QQ:1586558083 目录 一、概述 二、堆内和堆外内存规划 2.1 堆内内存 2.2 堆外内存 2.3 内存管理接口 三、内存空间分配 3.1 静态内存管理 3.2 统一内存管理 四、存储内存管理 4.1 RDD 的持久化机制 4.2 RDD 缓存的过程 4.3 淘汰和落盘 五、 执行内
阅读全文
摘要:讨论QQ:1586558083 目录 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:
阅读全文
摘要:讨论QQ:1586558083 目录 调优概述 原则一:避免创建重复的RDD 一个简单的例子 原则二:尽可能复用同一个RDD 一个简单的例子 原则三:对多次使用的RDD进行持久化 对多次使用的RDD进行持久化的代码示例 Spark的持久化级别 如何选择一种最合适的持久化策略 原则四:尽量避免使用sh
阅读全文
摘要:讨论QQ:1586558083 目录 Transformation算子 基本的初始化 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1 map 1.2 flatMap 1.3 mapPartitions 1.4 mapPartitionsWi
阅读全文
摘要:讨论QQ:1586558083 目录 一、Spark中的基本概念 二、Spark的运行流程 2.1 Spark的基本运行流程 三、Spark在不同集群中的运行架构 3.1 Spark on Standalone运行过程 3.2 Spark on YARN运行过程 正文 回到顶部 一、Spark中的基
阅读全文
摘要:讨论QQ:1586558083 目录 一、JDK的安装 1.1 上传安装包并解压 1.2 配置环境变量 1.3 验证Java版本 二、配置配置ssh localhost 2.1 检测 2.2 生成私钥和公钥秘钥对 2.3 将公钥添加到authorized_keys 2.4 赋予authorized_
阅读全文
摘要:讨论QQ:1586558083 目录 一、概述 二、广播变量broadcast variable 2.1 为什么要将变量定义成广播变量? 2.2 广播变量图解 2.3 如何定义一个广播变量? 2.4 如何还原一个广播变量? 2.5 定义广播变量需要的注意点? 2.6 注意事项 三、累加器 3.1 为
阅读全文
摘要:讨论QQ:1586558083 目录 一、RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二、RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式 三、RDD编程API 3.1 Transformati
阅读全文
摘要:讨论QQ:1586558083 目录 一、下载Spark安装包 1、从官网下载 2、从微软的镜像站下载 3、从清华的镜像站下载 二、安装基础 三、Spark安装过程 1、上传并解压缩 2、为安装包创建一个软连接 3、进入spark/conf修改配置文件 4、配置环境变量 四、启动 1、先启动zook
阅读全文
摘要:讨论QQ:1586558083 目录 一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性 2、易用性 3、通用性 4、兼容性 三、Spark的组成 四、应用场景 正文 回到顶部 一、官网介绍 1、什么是Spark 官网地址:http://spark.apache.org/ Ap
阅读全文