摘要:
文章目录 一、需求说明 1、以案例驱动理解 二、技术点 三、代码实现(一) 1、调用底层的Process(可做类似map的操作),将Json字符串解析成MyBehavior对象 2、提取EventTime,转换成Timestamp格式,生成WaterMark 3、按照指定事件分组 4、把分好组的数据 阅读全文
摘要:
一、dubbo是什么? 1)本质:一个Jar包,一个分布式框架,,一个远程服务调用的分布式框架。 既然是新手教学,肯定很多人不明白什么是分布式和远程服务调用,为什么要分布式,为什么要远程调用。我简单画个对比图说明(图1看到图2。画板画的,勿喷)。 你想一下,以前什么的都在一个服务器上,调用方法直接就 阅读全文
摘要:
具体操作步骤如下 1. 打开Eclipse,然后“window”→“Preferences” 2. 选择“java”,展开,“Editor”,选择“Content Assist”。 3.选择“Content Assist”,然后看到右边,右边的“Auto Activation”下面的“Auto Ac 阅读全文
摘要:
常用快捷键 加粗: Ctrl/Cmd + B 标题: Ctrl/Cmd + H 插入链接: Ctrl/Cmd + K 插入代码: Ctrl/Cmd + Shift + C 行内代码: Ctrl/Cmd + Shift + K 插入图片: Ctrl/Cmd + Shift + I 无序列表: Ctrl 阅读全文
摘要:
概论 结构化流式查询使用微批处理引擎进行处理,该引擎将数据流作为一系列小批量作业处理,从而实现低至100毫秒的端到端延迟和完全一次的容错保证。但是,自Spark 2.3以来,我们引入了一种称为连续处理的新型低延迟处理模式,它可以实现低至1毫秒的端到端延迟,并且具有至少一次的保证。 编程模型 结构化流 阅读全文
摘要:
Spark的join操作可能触发shuffle操作。shuffle操作要经过磁盘IO,网络传输,对性能影响比较大。本文聊一聊Spark的join在哪些情况下可以避免shuffle过程。 1 DataFrame/Dataset的join如何避免shuffle 针对Spark DataFrame/Dat 阅读全文
摘要:
本篇文章将以问答的方式对Executor的启动进行分析。 1. executor在什么时候开始启动? 新app的加入和集群资源的变动将调用到Master的schedule方法, 这个时候会进行startExecutorsOnWorkers()进行executor的调度和启动。 (资源申请的是在 ap 阅读全文
摘要:
配置Git 配置GitHub 配置账户 日常使用 初始化 创建Git仓库,位置选择当前项目根目录,完成后,文件名会变成褐色 忽略一些不需要提交的东西 修改.git\info\exclude添加需要忽略的配置已忽略的文件在IDEA中会置灰 添加到缓存区 右键项目→Git→Add,完成后,文件名会变绿 阅读全文
摘要:
为什么需要版本控制 git和svn都是程序员用来管理代码的,如果是一个人开发一个项目,版本控制这个玩意儿根本用不上,对吧。但是呢,在企业中进行开发,一个人负责一个项目的情况几乎不可能,从需求评审,UI设计,前端开发,后台开发,测试,整个过程都是需要团队来配合的。这个时候呢,版本控制都显得尤为重要啦。 阅读全文
摘要:
Flink on Yarn模式部署始末:Flink的Standalone和on Yarn模式都属于集群运行模式,但是有很大的不同,在实际环境中,使用Flink on Yarn模式者居多。 那么使用on yarn模式到底好在哪呢? 首先,在集群运行时,可能会有很多的集群实例包括MapReduce、Sp 阅读全文