2019 年 6月随笔档案 - 技术研究与问题解决

kafka命令

摘要：1.生产者命令： ./kafka-console-producer.sh --topic mytopic --broker-list node06:9092,node07:9092,node08:9092 2.消费者命令： ./kafka-console-consumer.sh --bootstra 阅读全文

posted @ 2019-06-28 22:43 技术研究与问题解决阅读(155) 评论(0) 推荐(0) 编辑

大数据：Parquet文件存储格式

摘要：一、Parquet的组成 Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定，目前能够和Parquet适配的组件包括下面这些，可以看出基本上通常使用的查询引擎和计算框架都已适配，并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。查询引擎: 阅读全文

posted @ 2019-06-26 16:20 技术研究与问题解决阅读(1844) 评论(0) 推荐(0) 编辑

Spark记录-阿里巴巴开源工具DataX数据同步工具使用

摘要：1.官网下载下载地址：https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、M 阅读全文

posted @ 2019-06-26 15:56 技术研究与问题解决阅读(571) 评论(0) 推荐(0) 编辑

Spark记录-SparkSQL远程操作MySQL和ORACLE

摘要：1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 3 阅读全文

posted @ 2019-06-26 15:51 技术研究与问题解决阅读(223) 评论(0) 推荐(0) 编辑

Java中的关键字 transient

摘要：阅读目录先解释下Java中的对象序列化关于transient关键字举个例子参考资料先解释下Java中的对象序列化关于transient关键字举个例子参考资料先解释下Java中的对象序列化在讨论transient之前，有必要先搞清楚Java中序列化的含义； Java中对象的序列化指阅读全文

posted @ 2019-06-26 15:34 技术研究与问题解决阅读(384) 评论(0) 推荐(0) 编辑

启用yarn日志聚集功能

摘要：在yarn-site.xml配置文件中添加如下内容： ##开启日志聚集功能 <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property>##日志保存7天（单位秒） <property> <nam 阅读全文

posted @ 2019-06-25 16:43 技术研究与问题解决阅读(406) 评论(0) 推荐(0) 编辑

开启spark日志聚集功能

摘要：spark监控应用方式： 1)在运行过程中可以通过web Ui:4040端口进行监控 2)任务运行完成想要监控spark，需要启动日志聚集功能开启日志聚集功能方法：编辑conf/spark-env.sh文件，在其中加入如下部分： SPARK_HISTORY_OPTS=-Dspark.histor 阅读全文

posted @ 2019-06-25 16:39 技术研究与问题解决阅读(755) 评论(0) 推荐(0) 编辑

Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

摘要：梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体阅读全文

posted @ 2019-06-25 15:58 技术研究与问题解决阅读(969) 评论(0) 推荐(0) 编辑

linux历史命令查找快捷方式

摘要：一、回到上次操作的目录 # cd -进入上次访问目录二、历史命令搜索操作快捷键：[Ctrl + r], [Ctrl + p], [Ctrl + n]在终端中按捉 [Ctrl] 键的同时 [r] 键，出现提示：(reverse-i-search), 此时你尝试一下输入你以前输入过的命令，当你每输入一个阅读全文

posted @ 2019-06-25 15:13 技术研究与问题解决阅读(1795) 评论(0) 推荐(0) 编辑

Eclipse 常用快捷键和使用技巧

摘要：1.查看快捷键定义的地方 Window->Preferences->General->Keys。 2.更改启动页在AndroidManifest.xml第一个activity标签项中 android:name=".ResultDemoActivity" ResultDemoActivity改为你想阅读全文

posted @ 2019-06-22 21:58 技术研究与问题解决阅读(278) 评论(0) 推荐(0) 编辑

Eclipse用法和技巧十二：快速复制一行

摘要：在eclipse中如果遇到需要快速在一行代码的上下复制一行的话，有很方便的快捷键可以使用。将光标放到某一行，按住Ctrl+Alt+Down，即可以在下面快速复制一行，按住Ctrl+Alt+Up，即可以在上面快速复制一行。阅读全文

posted @ 2019-06-22 21:55 技术研究与问题解决阅读(522) 评论(0) 推荐(0) 编辑

Spark以yarn方式运行时抛出异常

摘要：Spark以yarn方式运行时抛出异常： cluster.YarnClientSchedulerBackend: Yarn application has already exited with state FINISHED! 解决方案：主要是给节点分配的内存少，yarn kill了spark a 阅读全文

posted @ 2019-06-22 20:09 技术研究与问题解决阅读(941) 评论(0) 推荐(0) 编辑

hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS, YARN, Hbase, Hive, ZooKeeper:

摘要：所有端口协议均基于TCP。阅读全文

posted @ 2019-06-22 16:45 技术研究与问题解决阅读(175) 评论(0) 推荐(0) 编辑

hadoop3.1.1高可用集群web端口9870

摘要：阅读全文

posted @ 2019-06-22 16:41 技术研究与问题解决阅读(1835) 评论(0) 推荐(0) 编辑

ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.

摘要：将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数 HDFS_NAMENODE_USER=root HDFS_DATANODE_USER=root HDFS_SECONDARYNAMENODE_USER=root YARN_RESOURCEMANAGER_USER=root 阅读全文

posted @ 2019-06-22 16:29 技术研究与问题解决阅读(2904) 评论(0) 推荐(0) 编辑

spark 在启动的时候出现JAVA_HOME not set

摘要：解决方法：在sbin目录下的spark-config.sh 中添加对应的jdk 路径，然后使用scp -r 命令复制到各个worker节点阅读全文

posted @ 2019-06-22 09:57 技术研究与问题解决阅读(622) 评论(0) 推荐(0) 编辑

Linux修改主机名称

摘要：碰到这个问题的时候，是在安装Zookeeper集群的时候，碰到如下问题这里猜想到是主机的地址没有配对，网上给了方案是重新设置linux的主机名。 Step1：查看当前的主机名这里的主机名是sxl133，如果没有设置，则是localhost.localdomain，这是linux默认的主机名。 S 阅读全文

posted @ 2019-06-22 09:06 技术研究与问题解决阅读(230) 评论(0) 推荐(0) 编辑

Tachyon---基于内存的分布式存储系统

摘要：Tachyon是一个以内存为核心的开源分布式存储系统，也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架（如Apache Spark，Hadoop MapReduce, Apache Flink等）提供可靠的内存级的数据共享服务。此外，Tachyon还能够整合众多现有的存储阅读全文

posted @ 2019-06-21 14:32 技术研究与问题解决阅读(532) 评论(0) 推荐(0) 编辑

机器学习中的基本数学知识

摘要：机器学习中的基本数学知识注：本文的代码是使用Python 3写的。机器学习中的基本数学知识线性代数（linear algebra）第一公式矩阵的操作换位(transpose) 矩阵乘法矩阵的各种乘积内积外积元素积(element-wise product/point-wise p 阅读全文

posted @ 2019-06-19 18:06 技术研究与问题解决阅读(543) 评论(0) 推荐(0) 编辑

Spark集群 + Akka + Kafka + Scala 开发(4) : 开发一个Kafka + Spark的应用

摘要：前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中，我们已经部署好了一个Spark的开发环境。在Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用中，我们已经写好了一个Spark的应用。本文的目标阅读全文

posted @ 2019-06-19 17:43 技术研究与问题解决阅读(347) 评论(0) 推荐(0) 编辑

Spark集群 + Akka + Kafka + Scala 开发(3) : 开发一个Akka + Spark的应用

摘要：前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中，我们已经部署好了一个Spark的开发环境。在Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用中，我们已经写好了一个Spark的应用。本文的目标阅读全文

posted @ 2019-06-19 17:42 技术研究与问题解决阅读(419) 评论(0) 推荐(0) 编辑

Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用

摘要：Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用阅读全文

posted @ 2019-06-19 17:41 技术研究与问题解决阅读(94) 评论(0) 推荐(0) 编辑

Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境

摘要：目标配置一个spark standalone集群 + akka + kafka + scala的开发环境。创建一个基于spark的scala工程，并在spark standalone的集群环境中运行。创建一个基于spark+akka的scala工程，并在spark standalone的集群环阅读全文

posted @ 2019-06-19 17:39 技术研究与问题解决阅读(230) 评论(0) 推荐(0) 编辑

java8函数式编程实例

摘要：什么是函数式编程函数式编程是java8的一大特色，也就是将函数作为一个参数传递给指定方法。别人传的要么是基本数据类型，要么就是地址引用，我们要穿一个“动作”。 Stream 说到函数式编程，就不得不提及Stream，Stream跟我们熟知的io流可不是同一个东西，泛指可以顺序执行或者并行执行的元阅读全文

posted @ 2019-06-12 21:04 技术研究与问题解决阅读(195) 评论(0) 推荐(0) 编辑

Oracle Parallel使用方法

摘要：一、并行查询并行查询允许将一个sql select语句划分为多个较小的查询，每个部分的查询并发地运行，然后将各个部分的结果组合起来，提供最终的结果，多用于全表扫描，索引全扫描等，大表的扫描和连接、创建大的索引、分区索引扫描、大批量插入更新和删除 1. 启用并行查询SQL> ALTER TABLE 阅读全文

posted @ 2019-06-11 17:40 技术研究与问题解决阅读(1596) 评论(0) 推荐(0) 编辑

Spark学习之路（二十二）SparkStreaming的官方文档

摘要：讨论QQ：1586558083 目录一、简介 1.1　概述 1.2　一个小栗子 2.2　初始化StreamingContext 2.3　离散数据流 (DStreams) 2.4　输入DStream和接收器 2.5　接收器可靠性二、基本概念 2.1　链接依赖项三、DStream支持的transf 阅读全文

posted @ 2019-06-11 12:06 技术研究与问题解决阅读(296) 评论(0) 推荐(0) 编辑

Spark学习之路（二十八）分布式图计算系统

摘要：讨论QQ：1586558083 目录一、引言二、图存储模式 2.1　边分割（Edge-Cut） 2.2　点分割（Vertex-Cut） 2.3　对比三、图计算模式 3.1　超步 3.2　Pregel模型——像顶点一样思考 3.3　GAS模型——邻居更新模型正文回到顶部一、引言在了解Gr 阅读全文

posted @ 2019-06-11 12:02 技术研究与问题解决阅读(181) 评论(0) 推荐(0) 编辑

Spark学习之路（二十七）图简介

摘要：讨论QQ：1586558083 目录一、图 1.1　基本概念二、术语 2.1　顶点和边 2.2　有向图和无向图 2.3　有环图和无环图 2.4　度、出边、入边、出度、入度 2.5　超步三、图处理技术 3.1　图数据库 3.2　图数据查询 3.3　图数据分析 3.4　图数据可视化正文回到顶部阅读全文

posted @ 2019-06-11 12:01 技术研究与问题解决阅读(210) 评论(0) 推荐(0) 编辑

Spark学习之路（二十三）SparkStreaming的官方文档

摘要：讨论QQ：1586558083 目录一、SparkCore、SparkSQL和SparkStreaming的类似之处二、SparkStreaming的运行流程 2.1　图解说明 2.2　文字解说三、SparkStreaming的3个组成部分四、　离散流（DStream）五、小栗子 5.1　阅读全文

posted @ 2019-06-11 12:00 技术研究与问题解决阅读(270) 评论(0) 推荐(0) 编辑

Spark学习之路（二十）SparkSQL的元数据

摘要：讨论QQ：1586558083 目录一、概述二、Spark-SQL脚本正文回到顶部一、概述 SparkSQL 的元数据的状态有两种： 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的，也就是说，hive的元数据存在哪儿，它的元数据也就存在哪儿。换句话说阅读全文

posted @ 2019-06-11 11:58 技术研究与问题解决阅读(455) 评论(0) 推荐(0) 编辑

Spark学习之路（二十一）SparkSQL的开窗函数和DataSet

摘要：Spark学习之路（二十一）SparkSQL的开窗函数和DataSet 阅读全文

posted @ 2019-06-11 11:58 技术研究与问题解决阅读(268) 评论(0) 推荐(0) 编辑

Spark学习之路（十九）SparkSQL的自定义函数UDF

摘要：讨论QQ：1586558083 在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等 UDAF（User- Defined Aggregation Funcatio 阅读全文

posted @ 2019-06-11 11:56 技术研究与问题解决阅读(348) 评论(0) 推荐(0) 编辑

Spark学习之路（十八）SparkSQL简单使用

摘要：讨论QQ：1586558083 目录一、SparkSQL的进化之路二、认识SparkSQL 2.1　什么是SparkSQL? 2.2　SparkSQL的作用 2.3　运行原理 2.4　特点 2.5　SparkSession 2.7　DataFrames 三、RDD转换成为DataFrame 3. 阅读全文

posted @ 2019-06-11 11:55 技术研究与问题解决阅读(263) 评论(0) 推荐(0) 编辑

Spark学习之路（十七）Spark分区

摘要：讨论QQ：1586558083 目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法 3.1　本地模式 3.2　YARN模式四、分区器正文回到顶部一、分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式阅读全文

posted @ 2019-06-11 11:53 技术研究与问题解决阅读(235) 评论(0) 推荐(0) 编辑

Spark学习之路（十六）SparkCore的源码解读（二）spark-submit提交脚本

摘要：讨论QQ：1586558083 目录一、概述二、源码解读 2.2　find-spark-home 2.3　spark-class 2.4　SparkSubmit 正文回到顶部一、概述上一篇主要是介绍了spark启动的一些脚本，这篇主要分析一下Spark源码中提交任务脚本的处理逻辑，从spa 阅读全文

posted @ 2019-06-11 11:51 技术研究与问题解决阅读(185) 评论(0) 推荐(0) 编辑

Spark学习之路（十五）SparkCore的源码解读（一）启动脚本

摘要：讨论QQ：1586558083 目录一、启动脚本分析 1.1　start-all.sh 1.2　start-master.sh 1.3　spark-config.sh(1.2的第5步) 1.4　load-spark-env.sh(1.2的第6步) 1.5　spark-env.sh 1.6　spar 阅读全文

posted @ 2019-06-11 11:50 技术研究与问题解决阅读(381) 评论(0) 推荐(0) 编辑

Spark学习之路（十四）SparkCore的调优之资源调优JVM的GC垃圾收集器

摘要：讨论QQ：1586558083 目录一、概述二、垃圾收集器(garbage collector (GC)) 是什么？三、为什么需要GC？四、为什么需要多种GC？五、对象存活的判断六、垃圾回收算法 6.1　标记 -清除算法 6.2　复制算法 6.3　标记-整理算法 6.4　分代收集算法七阅读全文

posted @ 2019-06-11 11:49 技术研究与问题解决阅读(141) 评论(0) 推荐(0) 编辑

Spark学习之路（十三）SparkCore的调优之资源调优JVM的基本架构

摘要：讨论QQ：1586558083 目录一、JVM的结构图 1.1　Java内存结构 1.2　如何通过参数来控制各区域的内存大小 1.3　控制参数 1.4　JVM和系统调用之间的关系二、JVM各区域的作用 2.1　Java堆（Heap） 2.2　方法区（Method Area） 2.3　程序计数器（阅读全文

posted @ 2019-06-11 11:48 技术研究与问题解决阅读(138) 评论(0) 推荐(0) 编辑

Spark学习之路（十二）SparkCore的调优之资源调优

摘要：讨论QQ：1586558083 目录一、概述二、Spark作业基本运行原理三、资源参数调优 3.1　num-executors 3.2　executor-memory 3.3　executor-cores 3.4　driver-memory 3.5　spark.default.parallel 阅读全文

posted @ 2019-06-11 11:47 技术研究与问题解决阅读(162) 评论(0) 推荐(0) 编辑

Spark学习之路（十）SparkCore的调优之Shuffle调优

摘要：讨论QQ：1586558083 目录一、概述二、shuffle的定义三、ShuffleManager发展概述四、HashShuffleManager的运行原理 4.1　未经优化的HashShuffleManager 4.2　优化后的HashShuffleManager 五、SortShuff 阅读全文

posted @ 2019-06-11 11:46 技术研究与问题解决阅读(180) 评论(0) 推荐(0) 编辑

Spark学习之路（十一）SparkCore的调优之Spark内存模型

摘要：讨论QQ：1586558083 目录一、概述二、堆内和堆外内存规划 2.1　堆内内存 2.2　堆外内存 2.3　内存管理接口三、内存空间分配 3.1　静态内存管理 3.2　统一内存管理四、存储内存管理 4.1　RDD 的持久化机制 4.2　RDD 缓存的过程 4.3　淘汰和落盘五、执行内阅读全文

posted @ 2019-06-11 11:46 技术研究与问题解决阅读(139) 评论(0) 推荐(0) 编辑

Spark学习之路（九）SparkCore的调优之数据倾斜调优

摘要：讨论QQ：1586558083 目录调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：阅读全文

posted @ 2019-06-11 11:45 技术研究与问题解决阅读(202) 评论(0) 推荐(0) 编辑

Spark学习之路（八）SparkCore的调优之开发调优

摘要：讨论QQ：1586558083 目录调优概述原则一：避免创建重复的RDD 一个简单的例子原则二：尽可能复用同一个RDD 一个简单的例子原则三：对多次使用的RDD进行持久化对多次使用的RDD进行持久化的代码示例 Spark的持久化级别如何选择一种最合适的持久化策略原则四：尽量避免使用sh 阅读全文

posted @ 2019-06-11 11:44 技术研究与问题解决阅读(188) 评论(0) 推荐(0) 编辑

Spark学习之路（六）Spark Transformation和Action

摘要：讨论QQ：1586558083 目录 Transformation算子基本的初始化一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1　map 1.2　flatMap 1.3　mapPartitions 1.4　mapPartitionsWi 阅读全文

posted @ 2019-06-11 11:43 技术研究与问题解决阅读(161) 评论(0) 推荐(0) 编辑

Spark学习之路（七）Spark 运行流程

摘要：讨论QQ：1586558083 目录一、Spark中的基本概念二、Spark的运行流程 2.1　Spark的基本运行流程三、Spark在不同集群中的运行架构 3.1　Spark on Standalone运行过程 3.2　Spark on YARN运行过程正文回到顶部一、Spark中的基阅读全文

posted @ 2019-06-11 11:43 技术研究与问题解决阅读(236) 评论(0) 推荐(0) 编辑

Spark学习之路（五）Spark伪分布式安装

摘要：讨论QQ：1586558083 目录一、JDK的安装 1.1　上传安装包并解压 1.2　配置环境变量 1.3　验证Java版本二、配置配置ssh localhost 2.1　检测 2.2　生成私钥和公钥秘钥对 2.3　将公钥添加到authorized_keys 2.4　赋予authorized_ 阅读全文

posted @ 2019-06-11 11:42 技术研究与问题解决阅读(291) 评论(0) 推荐(0) 编辑

Spark学习之路（四）Spark的广播变量和累加器

摘要：讨论QQ：1586558083 目录一、概述二、广播变量broadcast variable 2.1　为什么要将变量定义成广播变量？ 2.2　广播变量图解 2.3　如何定义一个广播变量？ 2.4　如何还原一个广播变量？ 2.5　定义广播变量需要的注意点？ 2.6　注意事项三、累加器 3.1　为阅读全文

posted @ 2019-06-11 11:41 技术研究与问题解决阅读(185) 评论(0) 推荐(0) 编辑

Spark学习之路（三）Spark之RDD

摘要：讨论QQ：1586558083 目录一、RDD的概述 1.1　什么是RDD？ 1.2　RDD的属性 1.3　WordCount粗图解RDD 二、RDD的创建方式 2.1　通过读取文件生成的 2.2　通过并行化的方式创建RDD 2.3　其他方式三、RDD编程API 3.1　Transformati 阅读全文

posted @ 2019-06-11 11:39 技术研究与问题解决阅读(350) 评论(0) 推荐(0) 编辑

Spark学习之路（二）Spark2.3 HA集群的分布式安装

摘要：讨论QQ：1586558083 目录一、下载Spark安装包 1、从官网下载 2、从微软的镜像站下载 3、从清华的镜像站下载二、安装基础三、Spark安装过程 1、上传并解压缩 2、为安装包创建一个软连接 3、进入spark/conf修改配置文件 4、配置环境变量四、启动 1、先启动zook 阅读全文

posted @ 2019-06-11 11:37 技术研究与问题解决阅读(193) 评论(0) 推荐(0) 编辑

Spark学习之路（一）Spark初识

摘要：讨论QQ：1586558083 目录一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性 2、易用性 3、通用性 4、兼容性三、Spark的组成四、应用场景正文回到顶部一、官网介绍 1、什么是Spark 官网地址：http://spark.apache.org/ Ap 阅读全文

posted @ 2019-06-11 09:25 技术研究与问题解决阅读(157) 评论(0) 推荐(0) 编辑

06 2019 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论