随笔档案「2016年12月16日」：java8新特性（六）：Stream多线程并行数据处理 ... - XGogo

2016年12月16日

摘要：转：http://blog.csdn.net/sunjin9418/article/details/53143588 将一个顺序执行的流转变成一个并发的流只要调用 parallel()方法 public static long parallelSum(long n){ return Stream.i 阅读全文

posted @ 2016-12-16 19:54 XGogo 阅读(31685) 评论(0) 推荐(1)

Java8初体验（二）Stream语法详解

摘要：感谢同事【天锦】的投稿。投稿请联系 tengfei@ifeve.com上篇文章Java8初体验（一）lambda表达式语法比较详细的介绍了lambda表达式的方方面面，细心的读者会发现那篇文章的例子中有很多Stream的例子。这些Stream的例子可能让你产生疑惑，本文将会详细讲解Stream的使用阅读全文

posted @ 2016-12-16 17:58 XGogo 阅读(783) 评论(0) 推荐(1)

java8的新特性以及用法简介

摘要： 1. 介绍 2 接口的默认方法 2 lambda表达式 2.1 函数式接口 2.2 方法与构造函数引用 2.3 访问局部变量 2.4 访问对象字段与静态变量 3. 内建函数式接口 3.1 Predicate接口 3.2 Function 接口 3.3 Supplier 接口 3.4 Consumer 阅读全文

posted @ 2016-12-16 17:22 XGogo 阅读(7827) 评论(0) 推荐(0)

HDFS之SequenceFile和MapFile

摘要： Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的，在小文件的处理上不但效率低下，而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器，将这些小文件组织起来统一存储。HDFS提供了两种类阅读全文

posted @ 2016-12-16 16:51 XGogo 阅读(2071) 评论(0) 推荐(0)

深入分析Parquet列式存储格式【转】

摘要： Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。列式存储列式存储和行式存储相比有哪些优势呢？当时Twitter的日增数据量达到压缩之后的100TB+，存储在HD 阅读全文

posted @ 2016-12-16 16:43 XGogo 阅读(1528) 评论(0) 推荐(0)

Flume中的HDFS Sink配置参数说明【转】

摘要：转：http://lxw1234.com/archives/2015/10/527.htm 关键字：flume、hdfs、sink、配置参数 Flume中的HDFS Sink应该是非常常用的，其中的配置参数也比较多，在这里记录备忘一下。 channel type hdfs path 写入hdfs的路阅读全文

posted @ 2016-12-16 14:57 XGogo 阅读(797) 评论(0) 推荐(0)

采用alluxio提升MR job和Spark job性能的注意点

摘要： 1. 介绍 2. 实验说明 2.1 实验环境 2.2 实验方法 2.3 实验负载 3. MapReduce on alluxio 3.1 读取10G文件（1G split） 3.2 读取20G文件（1G split） 3.3 读取60G文件（1G split） 3.4 读取60G文件（512MB s 阅读全文

posted @ 2016-12-16 12:08 XGogo 阅读(2529) 评论(0) 推荐(0)

spark on alluxio和MR on alluxio测试(改进版)【转】

摘要：转自：http://kaimingwan.com/post/alluxio/spark-on-alluxiohe-mr-on-alluxioce-shi-gai-jin-ban 1. 介绍 2. 准备数据 2.1 清空系统缓存 3. MR测试 3.1 MR without alluxio 3.2 M 阅读全文

posted @ 2016-12-16 12:07 XGogo 阅读(1325) 评论(0) 推荐(0)

alluxio网络流量异常分析【转】

摘要： 1. 介绍 2. 准备工作 2.1 tcpdump 2.2 winshark 2.3 安装iftop 2.4 alluxio网络通信相关的端口 3.iftop 锁定消耗流量最大的端口 4. dump数据 5. winshark中加载看看 1. 介绍最近在使用alluxio的时候发现了网络流量比较大阅读全文

posted @ 2016-12-16 12:02 XGogo 阅读(722) 评论(0) 推荐(0)

Effective Spark RDDs with Alluxio【转】

摘要：转自：http://kaimingwan.com/post/alluxio/effective-spark-rdds-with-alluxio 1. 介绍 2. 引言 3. Alluxio and Spark RDD Cache 4. 保存RDD 4.1 采用persist() 4.2 采用save 阅读全文

posted @ 2016-12-16 11:59 XGogo 阅读(531) 评论(0) 推荐(0)

使用flume将kafka数据sink到HBase【转】

摘要： 1. hbase sink介绍 1.1 HbaseSink 1.2 AsyncHbaseSink 2. 配置flume 3. 运行测试flume 4. 使用RegexHbaseEventSerializer来处理些HBASE的值 5. 效率测试 1. hbase sink介绍 1.1 HbaseSi 阅读全文

posted @ 2016-12-16 11:49 XGogo 阅读(7353) 评论(2) 推荐(0)

理解FlumeNG的batchSize和transactionCapacity参数和传输事务的原理【转】

摘要：基于ThriftSource,MemoryChannel,HdfsSink三个组件，对Flume数据传输的事务进行分析，如果使用的是其他组件，Flume事务具体的处理方式将会不同。 Flume的事务处理原理： Flume在对Channel进行Put和Take操作的时候，必须要用事物包住,比如： Ch 阅读全文

posted @ 2016-12-16 11:47 XGogo 阅读(1486) 评论(0) 推荐(0)

尧字节

明翼

公告