松伯 - 博客园

2015年10月24日

摘要： hive.metastore.urisThrift uri for the remote metastore. Used by metastore client to connect to remote metastore.javax.jdo.option.ConnectionURLjdbc:mys... 阅读全文

posted @ 2015-10-24 01:41 松伯阅读(603) 评论(2) 推荐(0) 编辑

2015年10月23日

linux下安装mysql数据库与相关操作

摘要：如下命令都是用root身份安装，或者在命令前加上sudo采用yum安装方式安装yum install mysql #安装mysql客户端yum install mysql-server #安装mysql服务端判断MYSQL是否安装好:chkconfig --list|grep mysql启动mysq... 阅读全文

posted @ 2015-10-23 22:40 松伯阅读(237) 评论(0) 推荐(0) 编辑

使用SparkSQL实现多线程分页查询并写入文件

摘要：一、由于具有多张宽表且字段较多，每个宽表数据大概为4000万条，根据业务逻辑拼接别名，并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列，根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询，如果要使用SparkSQL进行分页查询，需要增加序号列，那么就在... 阅读全文

posted @ 2015-10-23 16:43 松伯阅读(5692) 评论(0) 推荐(1) 编辑

Hive架构及Hive On Spark

摘要： Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下，数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中，如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引，每个Partition... 阅读全文

posted @ 2015-10-23 16:10 松伯阅读(1525) 评论(0) 推荐(0) 编辑

Spark作业调度

摘要： Spark在任务提交时，主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG，并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS... 阅读全文

posted @ 2015-10-23 00:21 松伯阅读(568) 评论(0) 推荐(0) 编辑

2015年10月21日

最最简单的~WordCount¬

摘要： sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println)不使用reduceByKeysc.textFile("hdfs://....").fl... 阅读全文

posted @ 2015-10-21 23:36 松伯阅读(278) 评论(0) 推荐(0) 编辑

MongoDB的基本使用

摘要： use library 使用use函数切换已有的数据库或创建新的数据库show dbs 查看MongoDB中目前所有可用的数据库show collections 查看当前数据库中的所有集合在集合中插入数据>document = ({"Type":"Book","Title":"Definitive ... 阅读全文

posted @ 2015-10-21 22:21 松伯阅读(271) 评论(0) 推荐(0) 编辑

单点登录的实现

摘要：从第三方系统单点登录到目标系统，第三方系统会发送token进行验证，通过解析token，获取相应的用户信息的json串。将其set到自己系统的session中。public class sessionFilter extends OncePerRequestFilter{ // 登录页面 pr... 阅读全文

posted @ 2015-10-21 21:07 松伯阅读(345) 评论(0) 推荐(0) 编辑

2015年10月19日

将List<Map>中的datas转换为json格式写入文件

摘要： private static boolean writeToTextFileByJson(List> datas, String title, String columns, String fileName, String encode) { final BufferedWriter bw; ... 阅读全文

posted @ 2015-10-19 00:33 松伯阅读(3195) 评论(0) 推荐(0) 编辑

2015年10月14日

SparkSQL的解析详解

摘要： SparkSQL继承自Hive的接口，由于hive是基于MapReduce进行计算的，在计算过程中大量的中间数据要落地于磁盘，从而消耗了大量的I/O，降低了运行的效率，从而基于内存运算的SparkSQL应运而生。首先说下传统数据库的解析，传统数据库的解析过程是按Rusult、Data Sou... 阅读全文

posted @ 2015-10-14 00:28 松伯阅读(1190) 评论(0) 推荐(0) 编辑

spark transformation与action操作函数

摘要：一、Transformationmap(func) 返回一个新的分布式数据集，由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集，经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map... 阅读全文

posted @ 2015-10-14 00:22 松伯阅读(473) 评论(0) 推荐(0) 编辑

spark基础练习（未完)

摘要： 1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle... 阅读全文

posted @ 2015-10-14 00:06 松伯阅读(451) 评论(0) 推荐(0) 编辑

2015年10月13日

工作中Linux常用命令

摘要： rpm -qa|grep -i mysqlrpm -ev mysql-server-5.1.73-5.el6_6.x86_64如果报：error: Failed dependencies: libmysqlclient.so.16()(64bit) is needed by (inst... 阅读全文

posted @ 2015-10-13 11:18 松伯阅读(294) 评论(0) 推荐(0) 编辑

2015年10月12日

Hbase与hive整合

摘要： //hive与hbase整合create table lectrure.hbase_lecture10(sname string, score int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' whth serdepr... 阅读全文

posted @ 2015-10-12 23:22 松伯阅读(434) 评论(0) 推荐(0) 编辑

2015年10月10日

Spark工程开发常用函数与方法(Scala语言)

摘要： import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport ma... 阅读全文

posted @ 2015-10-10 17:45 松伯阅读(694) 评论(0) 推荐(0) 编辑

Topology的构建

摘要： public class BlackListBolt extends BaseRichBolt{ private static Logger logger = Logger.getLogger(BlackListBolt.class); private OutputCollector collect... 阅读全文

posted @ 2015-10-10 17:24 松伯阅读(453) 评论(0) 推荐(0) 编辑

hadoop-spark-hive-hbase配置相关说明

摘要： 1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z... 阅读全文

posted @ 2015-10-10 16:24 松伯阅读(630) 评论(0) 推荐(0) 编辑

Shuffle相关分析

摘要： Shuffle描述是一个过程，表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带，每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu... 阅读全文

posted @ 2015-10-10 16:16 松伯阅读(280) 评论(0) 推荐(0) 编辑

Spark运行流程概述

摘要： Application 指用户编写的Spark应用程序，其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的... 阅读全文

posted @ 2015-10-10 16:15 松伯阅读(636) 评论(0) 推荐(0) 编辑

Spark RDD简介与运行机制概述

摘要： RDD工作原理：主要分为三部分：创建RDD对象，DAG调度器创建执行计划，Task调度器分配任务并调度Worker开始运行。SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过（提交任务集）→任务调度管理(TaskSche... 阅读全文

posted @ 2015-10-10 16:13 松伯阅读(1342) 评论(0) 推荐(0) 编辑

MongoDB 3.0.6的主,从,仲裁节点搭建

摘要：在MongoDB所在路径创建log和data目录mkdir logmkdir data在data目录下创建master、slaver、arbiter路径mkdir mastermkdir slavermkdir arbiter新建日志文件在log下执行 touch mongodb.log 创建lo... 阅读全文

posted @ 2015-10-10 15:57 松伯阅读(538) 评论(0) 推荐(0) 编辑

kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转）

摘要：一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Pr... 阅读全文

posted @ 2015-10-10 15:52 松伯阅读(348) 评论(0) 推荐(0) 编辑

Spark配置参数调优

摘要： 1．配置多个executor 在项目中，由于数据量为几百万甚至千万级别，如果一个executor装载的对象过多，会导致GC很慢。项目中，我们使一个worker节点执行app时启动多个executor，从而加大并发度，解决full GC慢的问题。同时，由于启动了多个exeucute，在内存与核数不变的... 阅读全文

posted @ 2015-10-10 15:47 松伯阅读(1383) 评论(0) 推荐(0) 编辑

SparkSQL项目中的应用

摘要： Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Had... 阅读全文

posted @ 2015-10-10 15:42 松伯阅读(1834) 评论(0) 推荐(0) 编辑

SparkSQL相关语句总结

摘要： 1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个耗时25.766秒 ... 阅读全文

posted @ 2015-10-10 15:30 松伯阅读(41893) 评论(0) 推荐(0) 编辑

Hadoop系统架构

摘要：一、Hadoop系统架构图Hadoop1.0与hadoop2.0架构对比图YARN架构:ResourceManager–处理客户端请求–启动/监控ApplicationMaster–监控NodeManager–资源分配与调度NodeManager–单个节点上的资源管理–处理来自ResourceMan... 阅读全文

posted @ 2015-10-10 15:20 松伯阅读(3544) 评论(0) 推荐(0) 编辑

Hadoop常用命令

摘要： HDFS基本命令:hadoop fs -cmdcmd: 具体的操作，基本上与UNIX的命令行相同args:参数HDFS资源URI格式：scheme://authority/pathscheme：协议名，file或hdfsauthority：namenode主机名path：路径示例：hdfs://lo... 阅读全文

posted @ 2015-10-10 15:06 松伯阅读(745) 评论(0) 推荐(0) 编辑

spark单机模式简单搭建

摘要：待安装列表hadoophivescalaspark一.环境变量配置：~/.bash_profilePATH=$PATH:$HOME/binexport PATHJAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport SPARK... 阅读全文

posted @ 2015-10-10 15:02 松伯阅读(808) 评论(0) 推荐(0) 编辑

Spark参数配置说明

摘要： 1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项spark.sql.hive.convertMetastoreParquet falsehive.exec.compress.output false如果spark.sql.hive.conver... 阅读全文

posted @ 2015-10-10 14:56 松伯阅读(12701) 评论(0) 推荐(1) 编辑