摘要:
hive支持sql标准的数据仓库,可以将sql语句转化成mr程序执行。基础分析一般用hive来做,比较复杂的用mr来做数据仓库和数据库的区别 数据仓库:历史数据,面向分析,保证数据的完整性可以允许数据冗余。 数据库:存储结构化,在线数据,面向业务,使用范式来减少冗余。hive中有解析器,编译器,优化 阅读全文
摘要:
flume做日志收集的工具,将数据源导入到指定目标中。flume之间可以相互连接组件 source:如何从数据源中取数据,可以认为是两种主动source(主动取数据)和被动source(推给source,source作为服务接收数据) channel:数据缓冲区 sink:如何将数据写到目标中 上面 阅读全文
摘要:
storm分布式,可容错的实时计算框架,低延迟能做到毫秒级的响应,storm进程是常驻内存,Hadoop是不断启停的,storm中的数据不经过磁盘,都在内存中,处理完成后就没有了,但是可以写到数据库中,数据的交换经过网络,避免了磁盘io的开销storm的集群需要设置多大还有计算能力如何,一般是看数据 阅读全文
摘要:
zookeeper用来解决高可用问题,具有高可用,高性能,具有严格的顺序(只要是分布式系统就会是一个严格的顺序)访问控制能力的分布式协调服务,做分布式协调的作用,可以做服务的同步,维护配置文件和命名服务,解决一致性问题(paxos算法,zab协议(zookeeper原子广播)对paxos算法的一种应 阅读全文
摘要:
在IDEA当中,Project和 Module是作为两个不同的概念,对项目结构是重要意义的 eclipse和idea的区别 IDEA里面的子工程要称为Module就是模块化的概念,作为聚合工程亦或普通的根目录,它称之为Project,而下面的子工程称为模块,每一个子模块之间可以相关联,也可以没有任何 阅读全文
摘要:
spark spark是一个开源分布式计算框架,在于让计算更加快速,通常使用资源调度器yarn和spark自带的资源调度器standalond进行调度,spark相对于Hadoop更加快速,基于它是内存进行迭代,每次通过计算逻辑得到的中间结果值都会存放在内存中,而且最后结果也是从内存到磁盘,而Had 阅读全文
摘要:
之后就可以使用了<dependency> <groupId>video</groupId> <artifactId>log4j</artifactId> <version>1.2.17</version></dependency> 阅读全文
摘要:
对maven项目中pom.xml右键-->Run As-->Maven build... Goals里面添加assembly:assembly 点击run,编译成功后jar包在target目录中 阅读全文
摘要:
maven的pom.xml中添加远程仓库 阅读全文
摘要:
maven对项目编译时报错 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-assembly-plugin:2.2-beta-5:assembly (default-cli) on project video: Error 阅读全文