2015年10月23日
摘要:
如下命令都是用root身份安装,或者在命令前加上sudo采用yum安装方式安装yum install mysql #安装mysql客户端yum install mysql-server #安装mysql服务端判断MYSQL是否安装好:chkconfig --list|grep mysql启动mysq...
阅读全文
posted @ 2015-10-23 22:40
松伯
阅读(237)
推荐(0)
编辑
摘要:
一、由于具有多张宽表且字段较多,每个宽表数据大概为4000万条,根据业务逻辑拼接别名,并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列,根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询,如果要使用SparkSQL进行分页查询,需要增加序号列,那么就在...
阅读全文
posted @ 2015-10-23 16:43
松伯
阅读(5692)
推荐(1)
编辑
摘要:
Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引,每个Partition...
阅读全文
posted @ 2015-10-23 16:10
松伯
阅读(1525)
推荐(0)
编辑
摘要:
Spark在任务提交时,主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG,并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS...
阅读全文
posted @ 2015-10-23 00:21
松伯
阅读(568)
推荐(0)
编辑
2015年10月21日
摘要:
sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println)不使用reduceByKeysc.textFile("hdfs://....").fl...
阅读全文
posted @ 2015-10-21 23:36
松伯
阅读(278)
推荐(0)
编辑
摘要:
use library 使用use函数切换已有的数据库或创建新的数据库show dbs 查看MongoDB中目前所有可用的数据库show collections 查看当前数据库中的所有集合在集合中插入数据>document = ({"Type":"Book","Title":"Definitive ...
阅读全文
posted @ 2015-10-21 22:21
松伯
阅读(271)
推荐(0)
编辑
摘要:
从第三方系统单点登录到目标系统,第三方系统会发送token进行验证,通过解析token,获取相应的用户信息的json串。将其set到自己系统的session中。public class sessionFilter extends OncePerRequestFilter{ // 登录页面 pr...
阅读全文
posted @ 2015-10-21 21:07
松伯
阅读(345)
推荐(0)
编辑
2015年10月14日
摘要:
SparkSQL继承自Hive的接口,由于hive是基于MapReduce进行计算的,在计算过程中大量的中间数据要落地于磁盘,从而消耗了大量的I/O,降低了运行的效率,从而基于内存运算的SparkSQL应运而生。 首先说下传统数据库的解析,传统数据库的解析过程是按Rusult、Data Sou...
阅读全文
posted @ 2015-10-14 00:28
松伯
阅读(1190)
推荐(0)
编辑
摘要:
一、Transformationmap(func) 返回一个新的分布式数据集,由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集,经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map...
阅读全文
posted @ 2015-10-14 00:22
松伯
阅读(473)
推荐(0)
编辑
摘要:
1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle...
阅读全文
posted @ 2015-10-14 00:06
松伯
阅读(451)
推荐(0)
编辑
2015年10月10日
摘要:
import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport ma...
阅读全文
posted @ 2015-10-10 17:45
松伯
阅读(694)
推荐(0)
编辑
摘要:
public class BlackListBolt extends BaseRichBolt{ private static Logger logger = Logger.getLogger(BlackListBolt.class); private OutputCollector collect...
阅读全文
posted @ 2015-10-10 17:24
松伯
阅读(453)
推荐(0)
编辑
摘要:
1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z...
阅读全文
posted @ 2015-10-10 16:24
松伯
阅读(630)
推荐(0)
编辑
摘要:
Shuffle描述是一个过程,表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带,每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu...
阅读全文
posted @ 2015-10-10 16:16
松伯
阅读(280)
推荐(0)
编辑
摘要:
Application 指用户编写的Spark应用程序,其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的...
阅读全文
posted @ 2015-10-10 16:15
松伯
阅读(636)
推荐(0)
编辑
摘要:
RDD工作原理:主要分为三部分:创建RDD对象,DAG调度器创建执行计划,Task调度器分配任务并调度Worker开始运行。SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过(提交任务集)→任务调度管理(TaskSche...
阅读全文
posted @ 2015-10-10 16:13
松伯
阅读(1342)
推荐(0)
编辑
摘要:
在MongoDB所在路径创建log和data目录mkdir logmkdir data在data目录下 创建master、slaver、arbiter路径mkdir mastermkdir slavermkdir arbiter新建日志文件在log下执行 touch mongodb.log 创建lo...
阅读全文
posted @ 2015-10-10 15:57
松伯
阅读(538)
推荐(0)
编辑
摘要:
一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Pr...
阅读全文
posted @ 2015-10-10 15:52
松伯
阅读(348)
推荐(0)
编辑
摘要:
1.配置多个executor 在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢。项目中,我们使一个worker节点执行app时启动多个executor,从而加大并发度,解决full GC慢的问题。同时,由于启动了多个exeucute,在内存与核数不变的...
阅读全文
posted @ 2015-10-10 15:47
松伯
阅读(1383)
推荐(0)
编辑
摘要:
Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Had...
阅读全文
posted @ 2015-10-10 15:42
松伯
阅读(1834)
推荐(0)
编辑
摘要:
1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个 耗时25.766秒 ...
阅读全文
posted @ 2015-10-10 15:30
松伯
阅读(41893)
推荐(0)
编辑
摘要:
一、Hadoop系统架构图Hadoop1.0与hadoop2.0架构对比图YARN架构:ResourceManager–处理客户端请求–启动/监控ApplicationMaster–监控NodeManager–资源分配与调度NodeManager–单个节点上的资源管理–处理来自ResourceMan...
阅读全文
posted @ 2015-10-10 15:20
松伯
阅读(3544)
推荐(0)
编辑
摘要:
HDFS基本命令:hadoop fs -cmdcmd: 具体的操作,基本上与UNIX的命令行相同args:参数HDFS资源URI格式:scheme://authority/pathscheme:协议名,file或hdfsauthority:namenode主机名path:路径示例:hdfs://lo...
阅读全文
posted @ 2015-10-10 15:06
松伯
阅读(745)
推荐(0)
编辑
摘要:
待安装列表hadoophivescalaspark一.环境变量配置:~/.bash_profilePATH=$PATH:$HOME/binexport PATHJAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport SPARK...
阅读全文
posted @ 2015-10-10 15:02
松伯
阅读(808)
推荐(0)
编辑
摘要:
1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项spark.sql.hive.convertMetastoreParquet falsehive.exec.compress.output false如果spark.sql.hive.conver...
阅读全文
posted @ 2015-10-10 14:56
松伯
阅读(12701)
推荐(1)
编辑