2017年5月14日

摘要： Introduction 之前学习的时候都是通过使用spark-shell或者是在local模式运行spark 这边我们首先介绍Spark分布式应用的架构，然后讨论在分布式clusters中运行Spark的options(Spark可以运行在多种cluster managers之上：Hadoop Y 阅读全文

posted @ 2017-05-14 09:45 橘子不是唯一的水果阅读(248) 评论(0) 推荐(0) 编辑

2017年5月12日

摘要： Introduction 介绍两种共享变量的方式： accumulators：聚集信息 broadcast variables：高效地分布large values 介绍对高setup costs任务的批操作，比如查询数据库时连接数据的消耗。 > working on a per-partiton b 阅读全文

posted @ 2017-05-12 12:04 橘子不是唯一的水果阅读(158) 评论(0) 推荐(0) 编辑

摘要： Motivation Spark是基于Hadoop可用的生态系统构建的，因此Spark可以通过Hadoop MapReduce的InputFormat和OutputFormat接口存取数据。 Spark所提供的上层接口有这几类： File formats and filesystems: 对于存储在阅读全文

posted @ 2017-05-12 09:46 橘子不是唯一的水果阅读(194) 评论(0) 推荐(0) 编辑

摘要： Origin 我们首先理解一下SequenceFile试图解决什么问题，然后看SeqFile怎么解决这些问题。 In HDFS 序列文件是解决Hadoop小文件问题的一个方法；小文件是显著小于HDFS块(128M)的文件；在HDFS中，每个文件、目录、块都被表示成一个对象，占用150bytes；阅读全文

posted @ 2017-05-12 09:38 橘子不是唯一的水果阅读(612) 评论(0) 推荐(0) 编辑

2017年5月11日

摘要： Overview Flume：一个分布式的，可靠的，可用的服务，用于有效地收集、聚合、移动大规模日志数据我们搭建一个flume + Spark Streaming的平台来从Flume获取数据，并处理它。有两种方法实现：使用flume-style的push-based方法，或者使用自定义的sink 阅读全文

posted @ 2017-05-11 17:24 橘子不是唯一的水果阅读(211) 评论(0) 推荐(0) 编辑

2017年5月10日

<Hadoop重装><centos><NameNode失效>

摘要： Overview 记一次真真切切的NameNode单点故障。学校机房着火之后，刀片机上的四台服务器，唯独就NameNode彻底宕掉了，去机房看了下硬盘都坏了。。所以只能换一个master咯。基本上改一些配置文件就可以。要修改的配置如下：本以为修改完了，格式化一下新的NameNode，在star 阅读全文

posted @ 2017-05-10 16:42 橘子不是唯一的水果阅读(742) 评论(0) 推荐(0) 编辑

2017年5月9日

Nginx+Flume+Hadoop日志分析，Ngram+AutoComplete

摘要：配置Nginx yum install nginx （在host99和host101） service nginx start开启服务 ps -ef |grep nginx看一下进程 ps -ef |grep nginx root 28230 1 0 14:54 ? 00:00:00 nginx: 阅读全文

posted @ 2017-05-09 11:35 橘子不是唯一的水果阅读(402) 评论(0) 推荐(0) 编辑

2017年5月8日

摘要： Working with key/value Pairs Motivation Pair RDDs are a useful building block in many programs, as they expose operations that allow u to act on each 阅读全文

posted @ 2017-05-08 21:12 橘子不是唯一的水果阅读(319) 评论(0) 推荐(0) 编辑

[转]<算法><Bit Manipulation><Summary>

该文被密码保护。阅读全文

posted @ 2017-05-08 19:02 橘子不是唯一的水果阅读(20) 评论(0) 推荐(0) 编辑

Lt (US Giant ladder)