用CRT connect MongoDB 使用Backspace无效
摘要:这是个很蛋疼的小问题。。。使用./mongo 10.1.235.62:27017 连接上后 打错了无法删除!? 这是在逗我,那就修改CRT个设置,点击选项,会话选项,仿真,把终端改成Linux就行了~如图:
阅读全文
posted @
2015-10-31 15:14
松伯
阅读(275)
推荐(0) 编辑
Hadoop 2.6.0集群搭建
摘要:yum install gcc yum install gcc-c++ yum install make yum install autoconfautomake libtool cmake yum install ncurses-devel yum install openssl-devel gr
阅读全文
posted @
2015-10-31 14:35
松伯
阅读(282)
推荐(0) 编辑
MongoDB 3.0 导入命令
摘要:在MongoDB的bin目录下执行./mongoimport -h 192.168.77.129 --db test --collection restaurants --drop --file /usr/local/mongodb-linux-x86_64-3.0.6/DW_LABEL_DATAS...
阅读全文
posted @
2015-10-30 16:23
松伯
阅读(230)
推荐(0) 编辑
MongoDB项目中常用方法
摘要:使用MongoDB连接池MongoOptions来进行连接 以及相关方法的调用//获得驱动地址(这里的驱动 写入了配置文件中)String serverAddressStr = Configure.getInstance().getProperty("SERVER_ADDRESSES"); lo...
阅读全文
posted @
2015-10-29 13:08
松伯
阅读(577)
推荐(0) 编辑
Redis简介及3.0.2编译安装
摘要:由于项目需要Redis作为内存数据库,所以也开始搞Redis~Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。...
阅读全文
posted @
2015-10-28 22:48
松伯
阅读(433)
推荐(0) 编辑
json字符串相关转换方法
摘要:/** json转换为Map* @param jsonStr json* @return map集合*/public static HashMap json2HashMap(String jsonStr) { HashMap data = new HashMap(); // 将json字符串转换成j...
阅读全文
posted @
2015-10-26 17:52
松伯
阅读(220)
推荐(0) 编辑
Spark 1.4连接mysql诡异的问题及解决
摘要:在spark-default.conf文件中明明配置了mysql的数据源连接随后启动spark-shell 执行如下测试代码:import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode,...
阅读全文
posted @
2015-10-26 11:27
松伯
阅读(1082)
推荐(0) 编辑
spark on hive 配置hive的metastore为mysql
摘要:hive.metastore.urisThrift uri for the remote metastore. Used by metastore client to connect to remote metastore.javax.jdo.option.ConnectionURLjdbc:mys...
阅读全文
posted @
2015-10-24 01:41
松伯
阅读(606)
推荐(0) 编辑
linux下安装mysql数据库与相关操作
摘要:如下命令都是用root身份安装,或者在命令前加上sudo采用yum安装方式安装yum install mysql #安装mysql客户端yum install mysql-server #安装mysql服务端判断MYSQL是否安装好:chkconfig --list|grep mysql启动mysq...
阅读全文
posted @
2015-10-23 22:40
松伯
阅读(237)
推荐(0) 编辑
使用SparkSQL实现多线程分页查询并写入文件
摘要:一、由于具有多张宽表且字段较多,每个宽表数据大概为4000万条,根据业务逻辑拼接别名,并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列,根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询,如果要使用SparkSQL进行分页查询,需要增加序号列,那么就在...
阅读全文
posted @
2015-10-23 16:43
松伯
阅读(5705)
推荐(1) 编辑
Hive架构及Hive On Spark
摘要:Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引,每个Partition...
阅读全文
posted @
2015-10-23 16:10
松伯
阅读(1528)
推荐(0) 编辑
Spark作业调度
摘要:Spark在任务提交时,主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG,并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS...
阅读全文
posted @
2015-10-23 00:21
松伯
阅读(571)
推荐(0) 编辑
最最简单的~WordCount¬
摘要:sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println)不使用reduceByKeysc.textFile("hdfs://....").fl...
阅读全文
posted @
2015-10-21 23:36
松伯
阅读(279)
推荐(0) 编辑
MongoDB的基本使用
摘要:use library 使用use函数切换已有的数据库或创建新的数据库show dbs 查看MongoDB中目前所有可用的数据库show collections 查看当前数据库中的所有集合在集合中插入数据>document = ({"Type":"Book","Title":"Definitive ...
阅读全文
posted @
2015-10-21 22:21
松伯
阅读(273)
推荐(0) 编辑
单点登录的实现
摘要:从第三方系统单点登录到目标系统,第三方系统会发送token进行验证,通过解析token,获取相应的用户信息的json串。将其set到自己系统的session中。public class sessionFilter extends OncePerRequestFilter{ // 登录页面 pr...
阅读全文
posted @
2015-10-21 21:07
松伯
阅读(349)
推荐(0) 编辑
将List<Map>中的datas转换为json格式写入文件
摘要:private static boolean writeToTextFileByJson(List> datas, String title, String columns, String fileName, String encode) { final BufferedWriter bw; ...
阅读全文
posted @
2015-10-19 00:33
松伯
阅读(3197)
推荐(0) 编辑
SparkSQL的解析详解
摘要:SparkSQL继承自Hive的接口,由于hive是基于MapReduce进行计算的,在计算过程中大量的中间数据要落地于磁盘,从而消耗了大量的I/O,降低了运行的效率,从而基于内存运算的SparkSQL应运而生。 首先说下传统数据库的解析,传统数据库的解析过程是按Rusult、Data Sou...
阅读全文
posted @
2015-10-14 00:28
松伯
阅读(1192)
推荐(0) 编辑
spark transformation与action操作函数
摘要:一、Transformationmap(func) 返回一个新的分布式数据集,由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集,经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map...
阅读全文
posted @
2015-10-14 00:22
松伯
阅读(474)
推荐(0) 编辑
spark基础练习(未完)
摘要:1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle...
阅读全文
posted @
2015-10-14 00:06
松伯
阅读(452)
推荐(0) 编辑
工作中Linux常用命令
摘要:rpm -qa|grep -i mysqlrpm -ev mysql-server-5.1.73-5.el6_6.x86_64如果报:error: Failed dependencies: libmysqlclient.so.16()(64bit) is needed by (inst...
阅读全文
posted @
2015-10-13 11:18
松伯
阅读(296)
推荐(0) 编辑
Hbase与hive整合
摘要://hive与hbase整合create table lectrure.hbase_lecture10(sname string, score int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' whth serdepr...
阅读全文
posted @
2015-10-12 23:22
松伯
阅读(434)
推荐(0) 编辑
Spark工程开发常用函数与方法(Scala语言)
摘要:import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport ma...
阅读全文
posted @
2015-10-10 17:45
松伯
阅读(696)
推荐(0) 编辑
Topology的构建
摘要:public class BlackListBolt extends BaseRichBolt{ private static Logger logger = Logger.getLogger(BlackListBolt.class); private OutputCollector collect...
阅读全文
posted @
2015-10-10 17:24
松伯
阅读(453)
推荐(0) 编辑
hadoop-spark-hive-hbase配置相关说明
摘要:1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z...
阅读全文
posted @
2015-10-10 16:24
松伯
阅读(631)
推荐(0) 编辑
Shuffle相关分析
摘要:Shuffle描述是一个过程,表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带,每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu...
阅读全文
posted @
2015-10-10 16:16
松伯
阅读(280)
推荐(0) 编辑
Spark运行流程概述
摘要:Application 指用户编写的Spark应用程序,其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的...
阅读全文
posted @
2015-10-10 16:15
松伯
阅读(636)
推荐(0) 编辑
Spark RDD简介与运行机制概述
摘要:RDD工作原理:主要分为三部分:创建RDD对象,DAG调度器创建执行计划,Task调度器分配任务并调度Worker开始运行。SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过(提交任务集)→任务调度管理(TaskSche...
阅读全文
posted @
2015-10-10 16:13
松伯
阅读(1352)
推荐(0) 编辑
MongoDB 3.0.6的主,从,仲裁节点搭建
摘要:在MongoDB所在路径创建log和data目录mkdir logmkdir data在data目录下 创建master、slaver、arbiter路径mkdir mastermkdir slavermkdir arbiter新建日志文件在log下执行 touch mongodb.log 创建lo...
阅读全文
posted @
2015-10-10 15:57
松伯
阅读(541)
推荐(0) 编辑
kafka入门:简介、使用场景、设计原理、主要配置及集群搭建(转)
摘要:一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Pr...
阅读全文
posted @
2015-10-10 15:52
松伯
阅读(350)
推荐(0) 编辑
Spark配置参数调优
摘要:1.配置多个executor 在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢。项目中,我们使一个worker节点执行app时启动多个executor,从而加大并发度,解决full GC慢的问题。同时,由于启动了多个exeucute,在内存与核数不变的...
阅读全文
posted @
2015-10-10 15:47
松伯
阅读(1384)
推荐(0) 编辑
SparkSQL项目中的应用
摘要:Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Had...
阅读全文
posted @
2015-10-10 15:42
松伯
阅读(1837)
推荐(0) 编辑
SparkSQL相关语句总结
摘要:1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个 耗时25.766秒 ...
阅读全文
posted @
2015-10-10 15:30
松伯
阅读(41929)
推荐(0) 编辑
Hadoop系统架构
摘要:一、Hadoop系统架构图Hadoop1.0与hadoop2.0架构对比图YARN架构:ResourceManager–处理客户端请求–启动/监控ApplicationMaster–监控NodeManager–资源分配与调度NodeManager–单个节点上的资源管理–处理来自ResourceMan...
阅读全文
posted @
2015-10-10 15:20
松伯
阅读(3560)
推荐(0) 编辑
Hadoop常用命令
摘要:HDFS基本命令:hadoop fs -cmdcmd: 具体的操作,基本上与UNIX的命令行相同args:参数HDFS资源URI格式:scheme://authority/pathscheme:协议名,file或hdfsauthority:namenode主机名path:路径示例:hdfs://lo...
阅读全文
posted @
2015-10-10 15:06
松伯
阅读(746)
推荐(0) 编辑
spark单机模式简单搭建
摘要:待安装列表hadoophivescalaspark一.环境变量配置:~/.bash_profilePATH=$PATH:$HOME/binexport PATHJAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport SPARK...
阅读全文
posted @
2015-10-10 15:02
松伯
阅读(810)
推荐(0) 编辑
Spark参数配置说明
摘要:1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项spark.sql.hive.convertMetastoreParquet falsehive.exec.compress.output false如果spark.sql.hive.conver...
阅读全文
posted @
2015-10-10 14:56
松伯
阅读(12711)
推荐(1) 编辑