chaplinthink - 博客园

Apache Flink 分布式运行时环境

摘要： Tasks and Operator Chains(任务及操作链) 在分布式环境下，Flink将操作的子任务链在一起组成一个任务，每一个任务在一个线程中执行。将操作链在一起是一个不错的优化:它减少了线程间的切换和缓冲，提升了吞吐量同时减低了时延。这些链式行为是可配置的，详情请见: " chainin 阅读全文

posted @ 2019-01-06 10:20 chaplinthink 阅读(1064) 评论(0) 推荐(0)

Apache Flink 数据流编程模型

摘要：抽象等级(Levels of Abstraction) Flink提供不同级别的抽象来开发流/批处理应用程序。 Statefule Stream Processing: 是最低级别（底层）的抽象，只提供有状态的流。它通过ProcessFunction嵌入到DataStream API之中。它使得用户阅读全文

posted @ 2019-01-05 12:06 chaplinthink 阅读(572) 评论(0) 推荐(0)

关于技术学习

摘要：最近自己就在思考关于技术的学习，比如一项新的技术我们需要学习，我们做的动作通常是以下的步骤： 1.看官方文档或者查阅相关的文本资料或者博客 2.搭建安装相应的编译环境 3.照着资料的例子在编译工具上实验 4.自己觉得学差不多了，然后等着如果项目需要的话去应用，其实大多数情况下，我们只是为了学习下这项阅读全文

posted @ 2017-11-19 18:43 chaplinthink 阅读(173) 评论(0) 推荐(0)

Scala学习笔记（二）

摘要： Scala面向对象：类：声明类（一个源文件中可以包含很多public的类） getter和setter 构造函数（主构造器和附属构造器）继承（extends）重写父类方法（override def）重写字段（override val，override var） 1.声明类 /** * * 阅读全文

posted @ 2017-06-08 22:04 chaplinthink 阅读(195) 评论(0) 推荐(0)

Scala学习笔记（一）

摘要： scala 版HelloWorrld object HelloWorld{ def main(args:Array[String]){ println("Hello World!!!"); } } 1.使用scalac HelloWorld.scala 编译下: 2.运行scala程序：scala 阅读全文

posted @ 2017-06-01 21:30 chaplinthink 阅读(173) 评论(0) 推荐(0)

kill 掉所有正在运行的hadoop jobs

摘要： get list of job's process IDs JOB_LIST=$(hadoop job -list 2> /dev/null | grep job_ | awk '{print $1}') kill all jobs for JOB in $JOB_LIST do hadoop jo 阅读全文

posted @ 2017-03-24 09:49 chaplinthink 阅读(240) 评论(0) 推荐(0)

Spark2.1.0官方文档

摘要： Spark 概述 Apache Spark是一个快速和通用的集群计算系统。它提供Java，scala,Python、R语言的APIs，以及支持一般执行图形的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和结构化数据处理的Spark SQL，用于机器学习的MLlib，用于图形处理的GraphX 阅读全文

posted @ 2017-03-04 15:14 chaplinthink 阅读(229) 评论(0) 推荐(0)

MapReduce并行编程模型和框架

摘要：传统的串行处理方式有四组文本数据： “the weather is good”, “today is good”, “good weather is good”, “today has good weather” 对这些文本数据进行词频统计: import java.util.Hashtable; 阅读全文

posted @ 2017-02-07 10:09 chaplinthink 阅读(494) 评论(0) 推荐(0)

分布式协调服务-Zookeeper

摘要：什么是 zookeeper? Zookeeper 是google的chubby一个开源实现，是hadoop的分布式协调服务它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。在Hbase中会用到。 Zk(zookeeper简称)可以用来保证数据在zk集群之间的数据阅读全文

posted @ 2017-01-20 09:47 chaplinthink 阅读(169) 评论(0) 推荐(0)

Hadoop2.x 体系结构和源码编译

摘要：体系结构 Hadoop1的核心组成包括HDFS和MapReduce。HDFS和MapReduce的共同点就是他们都是分布式的。 HDFS是包括主节点NameNode,只有一个，还有很多从节点DataNode,还有很多个。 NameNode含有我们用户存储的元数据的信息，把这些数据存储在硬盘上，但是在阅读全文

posted @ 2017-01-15 11:07 chaplinthink 阅读(3468) 评论(0) 推荐(0)

导航