大鹏o - 博客园

2020年9月21日

摘要：文章目录一、需求说明 1、以案例驱动理解二、技术点三、代码实现（一） 1、调用底层的Process（可做类似map的操作），将Json字符串解析成MyBehavior对象 2、提取EventTime,转换成Timestamp格式,生成WaterMark 3、按照指定事件分组 4、把分好组的数据阅读全文

posted @ 2020-09-21 19:09 大鹏o 阅读(255) 评论(0) 推荐(0) 编辑

2020年9月16日

Dubbo 一个远程服务调用框架

摘要：一、dubbo是什么？ 1）本质：一个Jar包,一个分布式框架,，一个远程服务调用的分布式框架。既然是新手教学，肯定很多人不明白什么是分布式和远程服务调用，为什么要分布式，为什么要远程调用。我简单画个对比图说明（图1看到图2。画板画的，勿喷）。你想一下，以前什么的都在一个服务器上，调用方法直接就阅读全文

posted @ 2020-09-16 15:11 大鹏o 阅读(357) 评论(0) 推荐(0) 编辑

2020年9月14日

如何打开Eclipse代码提示功能

摘要：具体操作步骤如下 1. 打开Eclipse，然后“window”→“Preferences” 2. 选择“java”，展开，“Editor”，选择“Content Assist”。 3.选择“Content Assist”，然后看到右边，右边的“Auto Activation”下面的“Auto Ac 阅读全文

posted @ 2020-09-14 16:30 大鹏o 阅读(1143) 评论(0) 推荐(0) 编辑

2020年9月8日

Typora入门使用

摘要：常用快捷键加粗： Ctrl/Cmd + B 标题： Ctrl/Cmd + H 插入链接： Ctrl/Cmd + K 插入代码： Ctrl/Cmd + Shift + C 行内代码： Ctrl/Cmd + Shift + K 插入图片： Ctrl/Cmd + Shift + I 无序列表： Ctrl 阅读全文

posted @ 2020-09-08 11:27 大鹏o 阅读(767) 评论(0) 推荐(0) 编辑

2020年9月7日

什么是Structed Streaming？

摘要：概论结构化流式查询使用微批处理引擎进行处理，该引擎将数据流作为一系列小批量作业处理，从而实现低至100毫秒的端到端延迟和完全一次的容错保证。但是，自Spark 2.3以来，我们引入了一种称为连续处理的新型低延迟处理模式，它可以实现低至1毫秒的端到端延迟，并且具有至少一次的保证。编程模型结构化流阅读全文

posted @ 2020-09-07 10:53 大鹏o 阅读(418) 评论(0) 推荐(0) 编辑

Spark的join什么情况下可以避免shuffle？

摘要： Spark的join操作可能触发shuffle操作。shuffle操作要经过磁盘IO，网络传输，对性能影响比较大。本文聊一聊Spark的join在哪些情况下可以避免shuffle过程。 1 DataFrame/Dataset的join如何避免shuffle 针对Spark DataFrame/Dat 阅读全文

posted @ 2020-09-07 10:51 大鹏o 阅读(893) 评论(0) 推荐(0) 编辑

spark Executor启动过程分析

摘要：本篇文章将以问答的方式对Executor的启动进行分析。 1. executor在什么时候开始启动？新app的加入和集群资源的变动将调用到Master的schedule方法，这个时候会进行startExecutorsOnWorkers()进行executor的调度和启动。（资源申请的是在 ap 阅读全文

posted @ 2020-09-07 10:50 大鹏o 阅读(447) 评论(0) 推荐(0) 编辑

在IDEA中使用Git

摘要：配置Git 配置GitHub 配置账户日常使用初始化创建Git仓库，位置选择当前项目根目录，完成后，文件名会变成褐色忽略一些不需要提交的东西修改.git\info\exclude添加需要忽略的配置已忽略的文件在IDEA中会置灰添加到缓存区右键项目→Git→Add，完成后，文件名会变绿阅读全文

posted @ 2020-09-07 10:48 大鹏o 阅读(586) 评论(0) 推荐(0) 编辑

Git和SVN的区别

摘要：为什么需要版本控制 git和svn都是程序员用来管理代码的，如果是一个人开发一个项目，版本控制这个玩意儿根本用不上，对吧。但是呢，在企业中进行开发，一个人负责一个项目的情况几乎不可能，从需求评审，UI设计，前端开发，后台开发，测试，整个过程都是需要团队来配合的。这个时候呢，版本控制都显得尤为重要啦。阅读全文

posted @ 2020-09-07 10:46 大鹏o 阅读(141) 评论(0) 推荐(0) 编辑

Flink on Yarn的两种模式

摘要： Flink on Yarn模式部署始末：Flink的Standalone和on Yarn模式都属于集群运行模式，但是有很大的不同，在实际环境中，使用Flink on Yarn模式者居多。那么使用on yarn模式到底好在哪呢？首先，在集群运行时，可能会有很多的集群实例包括MapReduce、Sp 阅读全文

posted @ 2020-09-07 10:45 大鹏o 阅读(3586) 评论(0) 推荐(0) 编辑

大鹏

公告