随笔分类 - 大数据
摘要:转载https://zhuanlan.zhihu.com/p/53482103 这哥们写的好,顺便转过来吧,当做学习用。 分布式快照算法: Chandy-Lamport 算法 0. 引言 Spark 的 Structured Streaming 的 Continuous Processing Mod
阅读全文
摘要:好久,好久没有写个博客了,自从上次封闭开始,到“自闭”,有了一段时间了,哈哈^_^ 、 多亏了云桌面的歇菜, 一下午啥都干不了, 突然想到,好久没有写点啥了,就写的,让时间流走有点痕迹吧 _(:з」∠)_ 之前,做过一个小工具,就是将一个文件中的数据,插入的hbase中, 将其简单阐述一番,多少记一
阅读全文
摘要:一.知识补充,摘抄,总结 1. Elasticsearch ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的
阅读全文
摘要:本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者更名为
阅读全文
摘要:之前,就写过,但是忘了总结了,找了半天也没有找到,看了以后要将东西整理了。 无奈,在网上收拾,看到这个人写的,索性,就搬过来,待我找到我写的,在一块补充一下! 所有网站的服务器上都会保留访问的log日志。这些log日志记录的其他机器访问服务器的ip,时间,http协议,状态码等信息。 比如这样: i
阅读全文
摘要:Awesome系列的Java资源整理。awesome-java 就是akullpp发起维护的Java资源列表,内容包括:构建工具、数据库、框架、模板、安全、代码分析、日志、第三方库、书籍、Java 站点等等。 业务流程管理套件 流程驱动的软件系统构建,中间件。 jBPM:非常灵活的业务流程管理框架,
阅读全文
摘要:有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Application可以直接运行在YARN集群上,这种运行模式,会将资源的管理与协调统一交给YARN集群去处理,这
阅读全文
摘要:1.为了 能够方便记忆, 总结一下。 2. 并行软件平台,不是 一个。 (1)这个特别熟悉的 以 hadoop 为平台的 生态系统 (2)还有以 微软的 并行软件平台 生态系统 (3) 还有LexisNexis公司的 基于 C++ 开发的 HPCC 下面补充(1) 有介绍 补充说明: (一)HPCC
阅读全文
摘要:最近 ,有同学和我说 这个 cap 和 分布式系统 关系,故查询一下网络, 了解一下,摘抄如下: 分布式领域CAP理论,C: Consistency(一致性), 数据一致更新,所有数据变动都是同步的, (如果系统对一个写操作返回成功,那么之后的读请求都必须读到这个新数据;如果返回失败,那么所有读操作
阅读全文
摘要:1.用的flume-log4j avrosource的整合 2.学习如何指定类打印日志 #log4j.rootLogger=INFO,flume 这个是将全部的日志会打印出来 protected static final Log logger = LogFactory.getLog("ScriptP
阅读全文
摘要:一. fluem中出现,transactionCapacity查询一下,得出一下这些: 最近在做flume的实时日志收集,用flume默认的配置后,发现不是完全实时的,于是看了一下,原来是memeryChannel的transactionCapacity在作怪,因为他默认是100,也就是说收集端的s
阅读全文
摘要:类别 名称 官网 备注 查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写 Kylin http://kylin.io eBay开源的基于Hadoop的分布式OLAP分析
阅读全文
摘要:1.概况 截至目前,Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。前者主要有如下几种实现方式:1)社区版本基于Secondary namenode机制来定时备份HDFS metadata元数据信息;2)Avata
阅读全文
摘要:从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform Memory Access) ,以及海量并行处理结构 (MPP : Massive Parallel
阅读全文
摘要:终于将这个神秘的寻象人 oozie 安装配置成功了,这个困扰我好几天, 当看到如下的画面, 我觉得值! 废话少说,看我如何编译和安装过程: (已经将hadoop2.5.2HA 的环境搭建起来了,hive,habase, flume,stom 都有了 Linux环境:centos6.5 64bit j
阅读全文
摘要:HRegionServer内部管理了一系列HRegion对象,每个HRegion对 应了table中的一个region,HRegion中由多 个HStore组成。每个HStore对应了Table中的一个column family的存储,可以看出每个columnfamily其实就是一个集中的存储单元,
阅读全文
摘要:一、输入格式 (1)输入分片记录 ①JobClient通过指定的输入文件的格式来生成数据分片InputSplit; ②一个分片不是数据本身,而是可分片数据的引用; ③InputFormat接口负责生成分片; 源码位置:org.apache.hadoop.mapreduce.lib.input包(新)
阅读全文
摘要:1.hbase的改的会影响器他的组件的使用, 故而, 在修改 hadoop的任何组件后, 一定要记得其它的组件也能受到影响, 一下是我在将hadoop的集群改了之后 , 再次运行hbase的时候, 就会发生异常, 原因是在连接namenode的时候,发生连接不到, 就是因为我改了之前的配置,将端口号
阅读全文
摘要:1.HDFS + WEB 项目 报java.lang.VerifyError... 异常 抛异常: Exception in thread "main" java.lang.VerifyError: (class: com/google/common/collect/Interners, metho
阅读全文
摘要:出现这个问题, 我首先去找了一下几个问题: 1.文件是否是utf-8 2.上传到Linux中的hadoop, 在Linux下去查看是否乱码 3.上面都没有问题, 就去检查eclipse,将项目工程改成了utf-8, 发现不行 4.看了一下的介绍, 将eclipse的系统设置改成了uft-8, 就可以
阅读全文