2015年10月24日
摘要: hive.metastore.urisThrift uri for the remote metastore. Used by metastore client to connect to remote metastore.javax.jdo.option.ConnectionURLjdbc:mys... 阅读全文
posted @ 2015-10-24 01:41 松伯 阅读(603) 评论(2) 推荐(0) 编辑
  2015年10月23日
摘要: 如下命令都是用root身份安装,或者在命令前加上sudo采用yum安装方式安装yum install mysql #安装mysql客户端yum install mysql-server #安装mysql服务端判断MYSQL是否安装好:chkconfig --list|grep mysql启动mysq... 阅读全文
posted @ 2015-10-23 22:40 松伯 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 一、由于具有多张宽表且字段较多,每个宽表数据大概为4000万条,根据业务逻辑拼接别名,并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列,根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询,如果要使用SparkSQL进行分页查询,需要增加序号列,那么就在... 阅读全文
posted @ 2015-10-23 16:43 松伯 阅读(5692) 评论(0) 推荐(1) 编辑
摘要: Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引,每个Partition... 阅读全文
posted @ 2015-10-23 16:10 松伯 阅读(1525) 评论(0) 推荐(0) 编辑
摘要: Spark在任务提交时,主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG,并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS... 阅读全文
posted @ 2015-10-23 00:21 松伯 阅读(568) 评论(0) 推荐(0) 编辑
  2015年10月21日
摘要: sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println)不使用reduceByKeysc.textFile("hdfs://....").fl... 阅读全文
posted @ 2015-10-21 23:36 松伯 阅读(278) 评论(0) 推荐(0) 编辑
摘要: use library 使用use函数切换已有的数据库或创建新的数据库show dbs 查看MongoDB中目前所有可用的数据库show collections 查看当前数据库中的所有集合在集合中插入数据>document = ({"Type":"Book","Title":"Definitive ... 阅读全文
posted @ 2015-10-21 22:21 松伯 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 从第三方系统单点登录到目标系统,第三方系统会发送token进行验证,通过解析token,获取相应的用户信息的json串。将其set到自己系统的session中。public class sessionFilter extends OncePerRequestFilter{ // 登录页面 pr... 阅读全文
posted @ 2015-10-21 21:07 松伯 阅读(345) 评论(0) 推荐(0) 编辑
  2015年10月19日
摘要: private static boolean writeToTextFileByJson(List> datas, String title, String columns, String fileName, String encode) { final BufferedWriter bw; ... 阅读全文
posted @ 2015-10-19 00:33 松伯 阅读(3195) 评论(0) 推荐(0) 编辑
  2015年10月14日
摘要: SparkSQL继承自Hive的接口,由于hive是基于MapReduce进行计算的,在计算过程中大量的中间数据要落地于磁盘,从而消耗了大量的I/O,降低了运行的效率,从而基于内存运算的SparkSQL应运而生。 首先说下传统数据库的解析,传统数据库的解析过程是按Rusult、Data Sou... 阅读全文
posted @ 2015-10-14 00:28 松伯 阅读(1190) 评论(0) 推荐(0) 编辑
摘要: 一、Transformationmap(func) 返回一个新的分布式数据集,由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集,经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map... 阅读全文
posted @ 2015-10-14 00:22 松伯 阅读(473) 评论(0) 推荐(0) 编辑
摘要: 1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle... 阅读全文
posted @ 2015-10-14 00:06 松伯 阅读(451) 评论(0) 推荐(0) 编辑
  2015年10月13日
摘要: rpm -qa|grep -i mysqlrpm -ev mysql-server-5.1.73-5.el6_6.x86_64如果报:error: Failed dependencies: libmysqlclient.so.16()(64bit) is needed by (inst... 阅读全文
posted @ 2015-10-13 11:18 松伯 阅读(294) 评论(0) 推荐(0) 编辑
  2015年10月12日
摘要: //hive与hbase整合create table lectrure.hbase_lecture10(sname string, score int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' whth serdepr... 阅读全文
posted @ 2015-10-12 23:22 松伯 阅读(434) 评论(0) 推荐(0) 编辑
  2015年10月10日
摘要: import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport ma... 阅读全文
posted @ 2015-10-10 17:45 松伯 阅读(694) 评论(0) 推荐(0) 编辑
摘要: public class BlackListBolt extends BaseRichBolt{ private static Logger logger = Logger.getLogger(BlackListBolt.class); private OutputCollector collect... 阅读全文
posted @ 2015-10-10 17:24 松伯 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z... 阅读全文
posted @ 2015-10-10 16:24 松伯 阅读(630) 评论(0) 推荐(0) 编辑
摘要: Shuffle描述是一个过程,表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带,每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu... 阅读全文
posted @ 2015-10-10 16:16 松伯 阅读(280) 评论(0) 推荐(0) 编辑
摘要: Application 指用户编写的Spark应用程序,其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的... 阅读全文
posted @ 2015-10-10 16:15 松伯 阅读(636) 评论(0) 推荐(0) 编辑
摘要: RDD工作原理:主要分为三部分:创建RDD对象,DAG调度器创建执行计划,Task调度器分配任务并调度Worker开始运行。SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过(提交任务集)→任务调度管理(TaskSche... 阅读全文
posted @ 2015-10-10 16:13 松伯 阅读(1342) 评论(0) 推荐(0) 编辑
摘要: 在MongoDB所在路径创建log和data目录mkdir logmkdir data在data目录下 创建master、slaver、arbiter路径mkdir mastermkdir slavermkdir arbiter新建日志文件在log下执行 touch mongodb.log 创建lo... 阅读全文
posted @ 2015-10-10 15:57 松伯 阅读(538) 评论(0) 推荐(0) 编辑
摘要: 一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Pr... 阅读全文
posted @ 2015-10-10 15:52 松伯 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 1.配置多个executor 在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢。项目中,我们使一个worker节点执行app时启动多个executor,从而加大并发度,解决full GC慢的问题。同时,由于启动了多个exeucute,在内存与核数不变的... 阅读全文
posted @ 2015-10-10 15:47 松伯 阅读(1383) 评论(0) 推荐(0) 编辑
摘要: Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Had... 阅读全文
posted @ 2015-10-10 15:42 松伯 阅读(1834) 评论(0) 推荐(0) 编辑
摘要: 1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个 耗时25.766秒 ... 阅读全文
posted @ 2015-10-10 15:30 松伯 阅读(41893) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop系统架构图Hadoop1.0与hadoop2.0架构对比图YARN架构:ResourceManager–处理客户端请求–启动/监控ApplicationMaster–监控NodeManager–资源分配与调度NodeManager–单个节点上的资源管理–处理来自ResourceMan... 阅读全文
posted @ 2015-10-10 15:20 松伯 阅读(3544) 评论(0) 推荐(0) 编辑
摘要: HDFS基本命令:hadoop fs -cmdcmd: 具体的操作,基本上与UNIX的命令行相同args:参数HDFS资源URI格式:scheme://authority/pathscheme:协议名,file或hdfsauthority:namenode主机名path:路径示例:hdfs://lo... 阅读全文
posted @ 2015-10-10 15:06 松伯 阅读(745) 评论(0) 推荐(0) 编辑
摘要: 待安装列表hadoophivescalaspark一.环境变量配置:~/.bash_profilePATH=$PATH:$HOME/binexport PATHJAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport SPARK... 阅读全文
posted @ 2015-10-10 15:02 松伯 阅读(808) 评论(0) 推荐(0) 编辑
摘要: 1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项spark.sql.hive.convertMetastoreParquet falsehive.exec.compress.output false如果spark.sql.hive.conver... 阅读全文
posted @ 2015-10-10 14:56 松伯 阅读(12701) 评论(0) 推荐(1) 编辑