摘要: partitionByHash Range-Partition sortPartition 根据指定的字段值进行分区的排序; 阅读全文
posted @ 2018-05-19 19:33 niutao 阅读(5752) 评论(0) 推荐(0) 编辑
摘要: flatMap函数 练习:如下数据 要求:统计相邻字符串出现的次数 import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment} import org.apache.flink.streaming.api.scala._ /** 阅读全文
posted @ 2018-05-19 19:19 niutao 阅读(749) 评论(0) 推荐(0) 编辑
摘要: 开发流程 例子: 将程序打包,提交到yarn 添加maven打包插件: <build> <sourceDirectory>src/main/java</sourceDirectory> <testSourceDirectory>src/test/scala</testSourceDirectory> 阅读全文
posted @ 2018-05-19 19:16 niutao 阅读(567) 评论(0) 推荐(0) 编辑
摘要: flink和spark类似,也是一种一站式处理的框架;既可以进行批处理(DataSet),也可以进行实时处理(DataStream) 使用maven导入相关依赖 <properties> <maven.compiler.source>1.8</maven.compiler.source> <mave 阅读全文
posted @ 2018-05-19 19:12 niutao 阅读(2895) 评论(0) 推荐(0) 编辑
摘要: 在一个企业中,为了最大化的利用集群资源,一般都会在一个集群中同时运行多种类型的 Workload。因此 Flink 也支持在 Yarn 上面运行; flink on yarn的前提是:hdfs、yarn均启动 修改hadoop的配置参数 vim etc/hadoop/yarn-site.xml 是否 阅读全文
posted @ 2018-05-19 19:10 niutao 阅读(1334) 评论(0) 推荐(0) 编辑
摘要: 对于一个企业级的应用,稳定性是首要要考虑的问题,然后才是性能,因此 HA 机制是必不可少的; 和 Hadoop 一代一样,从架构中我们可以很明显的发现 JobManager 有明显的单点问题(SPOF,single point of failure)。 JobManager 肩负着任务调度以及资源分 阅读全文
posted @ 2018-05-19 18:58 niutao 阅读(1088) 评论(0) 推荐(0) 编辑