摘要:
云计算这个词已经火的一塌糊涂,不懂云计算好像就不是搞IT的,可是谁又能说得清什么是云计算了? 先看两个概念: 美国国家标准与技术研究院:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进而可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够 阅读全文
摘要:
MySQL:关系型数据库,主要面向OLTP,支持事务,支持二级索引,支持sql,支持主从、Group Replication架构模型(本文全部以Innodb为例,不涉及别的存储引擎)。 HBase:基于HDFS,支持海量数据读写(尤其是写),支持上亿行、上百万列的,面向列的分布式NoSql数据库。天 阅读全文
摘要:
MongoDB MongoDB是当今最火爆的NoSQL数据库。MongoDB最早在09年发布,算得上是早期大数据时代的数据库代表作了。随着MongoDB的火爆,研发MongoDB的团队还专门成立了MongoDB公司来对MongoDB进行维护和推广,现在这个公司已经在纳斯达克上市,市值达到十几亿美元, 阅读全文
摘要:
2014 年,Kubernetes 作为内部 Google orchestrator Borg 开源版本推出,目前已是最成功和发展最快的 IT 基础架构项目之一。2018 年,Kubernetes 已广泛应用于各种业务,从软件开发商到航空公司。Kubernetes 得以迅速普及的原因之一就是其开源架 阅读全文
摘要:
众所周知,flink作为流计算引擎,处理源源不断的数据是其本意,但是在处理数据的过程中,往往可能需要一些参数的传递,那么有哪些方法进行参数的传递?在什么时候使用?这里尝试进行简单的总结。 使用configuration 在main函数中定义变量 使用参数的function需要继承自一个rich的fu 阅读全文
摘要:
一般在本地调试的时候,在控制台打印输出都会使用system.out.print,但是在线上运行的时候一般都是使用log4j进行日志输出。 那么在编写代码的时候,又不想写两份,直接写LOG是常规动作。 默认情况下,intellij本地调试时默认输出到控制台,但是代码中没有输出语句,则无法输出,这时候就 阅读全文
摘要:
基本语法 常量匹配 特别需要注意的是,Nil是一个空的List,定义为List[Nothing]。 变量匹配 类型匹配 case class匹配 option匹配 Scala有一种特殊的类型Option,Option有两种值,一种是Some,表示有值,一种是None,表示没有值。Option通常会用 阅读全文
摘要:
一图道尽心酸: 大的原理,上游的task产生数据后,会写在本地的缓存中,然后通知JM自己的数据已经好了,JM通知下游的Task去拉取数据,下游的Task然后去上游的Task拉取数据,形成链条。 但是在何时通知JM?这里有一个设置,比如pipeline还是blocking,pipeline意味着上游哪 阅读全文
摘要:
Apache Calcite是什么东东 Apache Calcite面向Hadoop新的sql引擎,它提供了标准的SQL语言、多种查询优化和连接各种数据源的能力。除此之外,Calcite还提供了OLAP和流处理的查询引擎。它2013年成为了Apache孵化项目以来,在Hadoop中越来越引人注目,并 阅读全文
摘要:
在flink的数据传输过程中,有两类数据,一类数据是控制流数据,比如提交作业,比如连接jm,另一类数据是业务数据。flink对此采用了不同的传输机制,控制流数据的传输采用akka进行,业务类数据传输在自己实现了序列化框架的前提下使用netty进行。之所以采用akka进行控制流数据的传送,是因为akk 阅读全文