上一页 1 2 3 4 5 6 7 8 ··· 33 下一页
摘要: Map定义: 在使用map时,需要先声明,否则结果可能与预期不同,array可以不声明 方式1: 方式2: Map初始化: 与array类似,可以使用括号直接初始化,也可以通过添加的方式来初始化数据,与array不同的是,括号直接初始化时使用的为一个键值对,添加元素时,下标可以不是整数 输出Map所 阅读全文
posted @ 2019-07-29 23:34 cctext 阅读(31627) 评论(0) 推荐(2) 编辑
摘要: 场景: 在spark structured streaming读取kafka上的topic,然后将统计结果写入到hdfs,hdfs保存目录按照month,day,hour进行分区: 1)程序放到spark上使用yarn开始运行(yarn-client或yarn-cluster),可以正常sink结果 阅读全文
posted @ 2019-07-26 00:13 cctext 阅读(2023) 评论(3) 推荐(0) 编辑
摘要: 读取配置文件,进行文件位置转移 在whenb.csv中指定了需要从/home/root/cf/下移除到/home/root/cf_wh/下文件列表,whenb.csv中包含记录如下: 具体实现的shell脚本: 按照map配置,进行文件上传hdfs 配置map(key[path],value[文件名 阅读全文
posted @ 2019-07-22 22:05 cctext 阅读(1225) 评论(0) 推荐(0) 编辑
摘要: Maven项目出现ERROR: eclipse更新了Maven插件后,让后就出现了以下错误: 解决方案1: 1)Window --> Perferences --> Maven --> Lifecycle Mapping 发现目录:E:\work\git\ICOS-DASpark-Project\. 阅读全文
posted @ 2019-07-18 16:49 cctext 阅读(1757) 评论(0) 推荐(0) 编辑
摘要: 业务需求,有一部分动态字段,需要在程序中动态加载并解析表达式: 实现方案1):在MapFunction、MapPartitionFunction中使用FelEngine进行解析: 实现方案2):采用selectExpr()函数 此时动态列dynamicExprLength为10,可以正常输出。 ds 阅读全文
posted @ 2019-07-18 14:22 cctext 阅读(1196) 评论(0) 推荐(0) 编辑
摘要: 读取文件,每行拆分,并比较拆分数组长度 数字判断一些命令:#-gt是大于#-lt是小于#-eq是等于#-ne是不等于#-ge是大于等于#-le是小于等于 阅读全文
posted @ 2019-07-16 10:55 cctext 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 基本用法主要掌握一点就行: master slave模式运用:driver 就是master,executor就是slave。 如果executor要想和driver交互必须拿到driver的EndpointRef,通过driver的EndpointRef来调接口访问。 driver启动时,会在dr 阅读全文
posted @ 2019-06-28 17:47 cctext 阅读(992) 评论(0) 推荐(0) 编辑
摘要: 导入 从一个Job运行过程中来看DAGScheduler是运行在Driver端的,其工作流程如下图: 图中涉及到的词汇概念: 1. RDD——Resillient Distributed Dataset 弹性分布式数据集。 2. Operation——作用于RDD的各种操作分为transformat 阅读全文
posted @ 2019-06-26 23:50 cctext 阅读(3142) 评论(2) 推荐(1) 编辑
摘要: 上篇《Spark(四十九):Spark On YARN启动流程源码分析(一)》我们讲到启动SparkContext初始化,ApplicationMaster启动资源中,讲解的内容明显不完整。 本章将针对yarn-cluster(--master yarn –deploy-mode cluster)模 阅读全文
posted @ 2019-06-25 22:45 cctext 阅读(4085) 评论(0) 推荐(2) 编辑
摘要: 准备工作 需要4个部件:Redis、Ruby语言运行环境、Redis的Ruby驱动redis-xxxx.gem、创建Redis集群的工具redis-trib.rb。使用redis-trib.rb工具来创建Redis集群,由于该文件是用ruby语言写的,所以需要安装Ruby开发环境,以及驱动redis 阅读全文
posted @ 2019-06-16 21:20 cctext 阅读(11723) 评论(3) 推荐(4) 编辑
摘要: 本文主要总结最近一段时间使用maven时,遇到需要maven plugins的一些简单总结。 1)在Build下重新指定最终打包报名 2)Maven Repository上以外的自定义包引入,以及如何设置才能被打包进来 a)在dependencies下引入lib下的jar b)在maven-comp 阅读全文
posted @ 2019-06-14 09:00 cctext 阅读(7804) 评论(0) 推荐(0) 编辑
摘要: 由于项目一些特殊需求,pom依赖的包可能是非Maven Repository下的包文件,因此无法自己从网上下载。此时,我们团队git上对该jar使用。 Maven项目pom引入lib下jar包 在eclipse project下根下创建一个lib文件夹,将依赖包拷贝到这个lib下。 然后,修改Pom 阅读全文
posted @ 2019-06-13 10:15 cctext 阅读(14782) 评论(2) 推荐(1) 编辑
摘要: 了解JVM GC原理非常重要,对于系统调优非常有用。如果一个系统频繁发生FULL GC,那么会造成系统响应卡顿,更严重的时候会导致系统崩溃。 JVM的内存空间 JVM的内存空间,从大的层面上来分析包含:新生代空间(Young)和老年代空间(Old)。新生代空间(Young)又被分为2个部分(Eden 阅读全文
posted @ 2019-06-04 20:19 cctext 阅读(14446) 评论(1) 推荐(4) 编辑
摘要: 引导 Windows环境下JvisulaVM一般存在于安装了JDK的目录${JAVA_HOME}/bin/JvisualVM.exe,它支持(本地和远程)jstatd和JMX两种方式连接远程JVM。 jstatd (Java Virtual Machine jstat Daemon)——监听远程服务 阅读全文
posted @ 2019-06-01 18:52 cctext 阅读(2127) 评论(0) 推荐(0) 编辑
摘要: 引导: 该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析。 spark-submit的入口函数 一般提交一个spark作业的方式采用spark-submit来提交 这个是提交到standalone集群的方式,其中spark-submit内容如下: https:/ 阅读全文
posted @ 2019-05-27 22:55 cctext 阅读(4951) 评论(0) 推荐(1) 编辑
摘要: MetricsSystem信息收集过程 参考: 《Apache Spark源码走读之21 -- WEB UI和Metrics初始化及数据更新过程分析》 《Spark Metrics配置详解》 《Spark Structrued Streaming源码分析--(四)ProgressReporter每个 阅读全文
posted @ 2019-05-23 00:18 cctext 阅读(868) 评论(0) 推荐(0) 编辑
摘要: 导入: 1)Spark Web UI主要依赖于流行的Servlet容器Jetty实现; 2)Spark Web UI(Spark2.3之前)是展示运行状况、资源状态和监控指标的前端,而这些数据都是由度量系统(MetricsSystem)收集来的; 3)Spark Web UI(spark2.3之后) 阅读全文
posted @ 2019-05-10 23:27 cctext 阅读(10464) 评论(6) 推荐(2) 编辑
摘要: 存储级别简介 Spark中RDD提供了多种存储级别,除去使用内存,磁盘等,还有一种是OFF_HEAP,称之为 使用JVM堆外内存 https://github.com/apache/spark/blob/branch-2.4/core/src/main/scala/org/apache/spark/ 阅读全文
posted @ 2019-05-05 20:45 cctext 阅读(2392) 评论(1) 推荐(1) 编辑
摘要: Java中JVM内存结构 线程共享区 方法区: 又名静态成员区域,包含整个程序的 class、static 成员等,类本身的字节码是静态的;它会被所有的线程共享和是全区级别的; 属于共享内存区域,存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。 Java 堆 (Heap): 阅读全文
posted @ 2019-05-05 20:15 cctext 阅读(527) 评论(0) 推荐(1) 编辑
摘要: 很多时候在流数据处理时,我们会将avro格式的数据写入到kafka的topic,但是avro写入到kafka的时候,数据有可能会与版本升级,也就是schema发生变化,此时如果消费端,不知道哪些数据的schema是使用升级前的,哪些数据schema使用升级后,此次消费端一旦就经常会跑出异常,为了避免 阅读全文
posted @ 2019-04-23 16:27 cctext 阅读(2019) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 33 下一页