摘要:
转:http://blog.csdn.net/sunjin9418/article/details/53143588 将一个顺序执行的流转变成一个并发的流只要调用 parallel()方法 public static long parallelSum(long n){ return Stream.i 阅读全文
摘要:
感谢同事【天锦】的投稿。投稿请联系 tengfei@ifeve.com上篇文章Java8初体验(一)lambda表达式语法比较详细的介绍了lambda表达式的方方面面,细心的读者会发现那篇文章的例子中有很多Stream的例子。这些Stream的例子可能让你产生疑惑,本文将会详细讲解Stream的使用 阅读全文
摘要:
1. 介绍 2 接口的默认方法 2 lambda表达式 2.1 函数式接口 2.2 方法与构造函数引用 2.3 访问局部变量 2.4 访问对象字段与静态变量 3. 内建函数式接口 3.1 Predicate接口 3.2 Function 接口 3.3 Supplier 接口 3.4 Consumer 阅读全文
摘要:
Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一存储。HDFS提供了两种类 阅读全文
摘要:
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 当时Twitter的日增数据量达到压缩之后的100TB+,存储在HD 阅读全文
摘要:
转:http://lxw1234.com/archives/2015/10/527.htm 关键字:flume、hdfs、sink、配置参数 Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。 channel type hdfs path 写入hdfs的路 阅读全文
摘要:
1. 介绍 2. 实验说明 2.1 实验环境 2.2 实验方法 2.3 实验负载 3. MapReduce on alluxio 3.1 读取10G文件(1G split) 3.2 读取20G文件(1G split) 3.3 读取60G文件(1G split) 3.4 读取60G文件(512MB s 阅读全文
摘要:
转自:http://kaimingwan.com/post/alluxio/spark-on-alluxiohe-mr-on-alluxioce-shi-gai-jin-ban 1. 介绍 2. 准备数据 2.1 清空系统缓存 3. MR测试 3.1 MR without alluxio 3.2 M 阅读全文
摘要:
1. 介绍 2. 准备工作 2.1 tcpdump 2.2 winshark 2.3 安装iftop 2.4 alluxio网络通信相关的端口 3.iftop 锁定消耗流量最大的端口 4. dump数据 5. winshark中加载看看 1. 介绍 最近在使用alluxio的时候发现了网络流量比较大 阅读全文
摘要:
转自:http://kaimingwan.com/post/alluxio/effective-spark-rdds-with-alluxio 1. 介绍 2. 引言 3. Alluxio and Spark RDD Cache 4. 保存RDD 4.1 采用persist() 4.2 采用save 阅读全文
摘要:
1. hbase sink介绍 1.1 HbaseSink 1.2 AsyncHbaseSink 2. 配置flume 3. 运行测试flume 4. 使用RegexHbaseEventSerializer来处理些HBASE的值 5. 效率测试 1. hbase sink介绍 1.1 HbaseSi 阅读全文
摘要:
基于ThriftSource,MemoryChannel,HdfsSink三个组件,对Flume数据传输的事务进行分析,如果使用的是其他组件,Flume事务具体的处理方式将会不同。 Flume的事务处理原理: Flume在对Channel进行Put和Take操作的时候,必须要用事物包住,比如: Ch 阅读全文