随笔分类 -  Flink

摘要:基于Flink进行流计算时,如要需要得到每个窗口的开始、结束、最大时间戳,可以通过TimeWindow对象的如下方法获得: /** * Gets the starting timestamp of the window. This is the first timestamp that belong 阅读全文
posted @ 2022-07-16 08:34 静若清池 阅读(855) 评论(0) 推荐(0)
摘要:Flink 1.13.1使用log4j.properties定义了jobmanager、taskmanager等的日志输出: # Allows this configuration to be modified at runtime. The file will be checked every 3 阅读全文
posted @ 2021-09-21 10:11 静若清池 阅读(3542) 评论(2) 推荐(0)
摘要:之前使用Flink 1.11.1时,log4j.properties的配置如下: # This affects logging for both user code and Flink rootLogger.level = INFO rootLogger.appenderRef.file.ref = 阅读全文
posted @ 2021-09-20 19:59 静若清池 阅读(3161) 评论(0) 推荐(0)
摘要:Flink是目前流计算的隐形王者,在国际国内有庞大的拥趸。 Nebula是国产图数据库的后起之秀,在DBEngines中排名也逐年上升。 将两者进行结合,可以产生很多应用场景:比如实时计算服务链路调用关系并将结果存到Nebula中、实时计算业务访问风控情况并将结果存到Nebula中、实时计算预警发生 阅读全文
posted @ 2021-07-03 15:46 静若清池 阅读(739) 评论(0) 推荐(0)
摘要:一、单元测试 通过Nebula提供的Java Client完成代码开发后,使用JUnit对其进行单元测试,需要注意几点: 1.1 坑 1.Nebula创建图空间是异步实现的,Nebula将在下一个心跳周期内(默认是10s)完成图空间的创建 如果单元测试代码中有动态创建、删除图空间的语句,单元测试结果 阅读全文
posted @ 2021-07-02 23:27 静若清池 阅读(2857) 评论(0) 推荐(0)
摘要:Flink以Standalone模式运行时,可能会发生jobmanager(以下简称jm)或taskmanager(以下简称tm)异常退出的情况,我们可以使用Linux自带的Systemd方式管理jm以及tm的启停,并在jm或tm出现故障时,及时将jm以及tm拉起来。 Flink在1.11版本后,从 阅读全文
posted @ 2021-05-04 17:09 静若清池 阅读(1490) 评论(0) 推荐(0)
摘要:自然语言处理是机器学习的一个重要分支,在智能翻译、智能问答、舆情监控、ChatOps等都有很好的应用场景,目前比较好的一个开源实现工具是何晗大神的HanLP,主页(http://hanlp.com/),GitHub项目(https://github.com/hankcs/HanLP),何大神还出了一 阅读全文
posted @ 2020-02-16 17:05 静若清池 阅读(744) 评论(0) 推荐(0)
摘要:Flink1.4.0连接部署在Linux上的Kafka0.10.2时,报如下异常: 根据提示,设置如下配置后,问题解决: 阅读全文
posted @ 2018-07-21 23:19 静若清池 阅读(4491) 评论(0) 推荐(0)
摘要:经过三年多的快速发展,特来电云平台从无到有,从有到强,从强到精,在应用实践中不断打磨完善,逐渐成长为国内乃至国际充电网领域的标杆,支撑了每天300余万度,总量8亿余度的充电量。这背后既有云平台沉淀出的技术创新性与前瞻性,也有云平台研发人员刨根问底追求卓越的精神,更有运维系统及运维人员枕戈待旦默默付出 阅读全文
posted @ 2018-04-23 18:10 静若清池 阅读(1465) 评论(0) 推荐(0)
摘要:Flink1.4.0中,反序列化及序列化时继承的类,有一些被标记为了“@deprecated”,路径上也有变化: 1.AbstractDeserializationSchema 以前路径 现在路径: 2.SerializationSchema 以前路径: 现在路径: 阅读全文
posted @ 2018-02-04 12:00 静若清池 阅读(2249) 评论(0) 推荐(0)
摘要:Flink安装在CentOS7上,默认时间是UTC时间,查看Flink日志,发现输出时间比当前时间晚8个小时。 通过如下命令,调整成北京时间 但是查看Flink输出的日志时间格式,输出时间仍然比当前时间晚8个小时! 经过研究,以下操作,可以解决日志输出时间比当前时间晚8小时的问题。 一、jobman 阅读全文
posted @ 2018-02-02 13:19 静若清池 阅读(3878) 评论(0) 推荐(1)
摘要:Flink通过Savepoint功能可以做到程序升级后,继续从升级前的那个点开始执行计算,保证数据不中断。 Flink中Checkpoint用于保存状态,是自动执行的,会过期,Savepoint是指向Checkpoint的指针,需要手动执行,并且不会过期。 据Flink路线图,后面Savepoint 阅读全文
posted @ 2018-01-27 23:53 静若清池 阅读(10913) 评论(1) 推荐(0)
摘要:Flink 1.4没出来以前,一直使用Flink 1.3.2,感觉还算稳定,最近将运行环境升级到1.4,遇到了一些坑: 1.需要将可运行程序,基于1.4.0重新编译一次 2.对比了一下flink-conf.yml中的配置,发现一处不同点: # The port under which the web 阅读全文
posted @ 2017-12-18 15:01 静若清池 阅读(4224) 评论(1) 推荐(0)
摘要:引自:https://www.slideshare.net/datamantra/introduction-to-flink-streaming 阅读全文
posted @ 2017-12-05 17:25 静若清池 阅读(824) 评论(1) 推荐(0)
摘要:基于Flink进行秒级计算时,发现监控图表中CPU有数据中断现象,通过一段时间的跟踪定位,该问题目前已得到有效解决,以下是解决思路: 一、问题现象 以SQL02为例,发现本来10秒一个点的数据,有时会出现断点现象,会少1-2个点甚至更多: 二、问题定位 针对该问题,根据数据处理链路,制定了数据输出跟 阅读全文
posted @ 2017-12-03 22:31 静若清池 阅读(2163) 评论(6) 推荐(0)
摘要:网址:http://blog.madhukaraphatak.com/ 首页: 阅读全文
posted @ 2017-12-02 23:15 静若清池 阅读(449) 评论(0) 推荐(0)
摘要:根据一些公开资料整理,也许有失偏颇,仅供参考: 1.第一代 Hadoop 承载的 MapReduce 2.第二代 支持 DAG(有向无环图) 的框架: Tez 、 Oozie,主要还是批处理任务 3.第三代 Job 内部的 DAG(有向无环图) 支持(不跨越 Job),以及强调的实时计算:Spark 阅读全文
posted @ 2017-11-12 23:08 静若清池 阅读(2676) 评论(0) 推荐(0)
摘要:随着云计算的深入落地,大数据技术有了坚实的底层支撑,不断向前发展并日趋成熟,无论是传统企业还是互联网公司,都不再满足于离线批处理计算,而是更倾向于应用实时流计算,要想在残酷的企业竞争中立于不败之地,企业数据必须被快速处理并输出结果,流计算无疑将是企业Must Have的大杀器。作为充电生态网的领军企 阅读全文
posted @ 2017-11-06 18:04 静若清池 阅读(3471) 评论(10) 推荐(8)
摘要:1.Jobmanager启动不起来 现象1:查看JobManager日志: WARN org.apache.flink.runtime.webmonitor.JobManagerRetriever - Failed to retrieve leader gateway and port. akka. 阅读全文
posted @ 2017-09-16 22:13 静若清池 阅读(41054) 评论(4) 推荐(1)
摘要:参考文章:https://ci.apache.org/projects/flink/flink-docs-release-1.3/setup/jobmanager_high_availability.html#bootstrap-zookeeper Flink典型的任务处理过程如下所示: 很容易发现 阅读全文
posted @ 2017-09-06 10:07 静若清池 阅读(11174) 评论(4) 推荐(0)