2015 年 10月随笔档案 - 松伯

摘要：这是个很蛋疼的小问题。。。使用./mongo 10.1.235.62:27017 连接上后打错了无法删除！？这是在逗我，那就修改CRT个设置，点击选项，会话选项，仿真，把终端改成Linux就行了~如图：阅读全文

posted @ 2015-10-31 15:14 松伯阅读(275) 评论(0) 推荐(0) 编辑

摘要：yum install gcc yum install gcc-c++ yum install make yum install autoconfautomake libtool cmake yum install ncurses-devel yum install openssl-devel gr 阅读全文

posted @ 2015-10-31 14:35 松伯阅读(282) 评论(0) 推荐(0) 编辑

MongoDB 3.0 导入命令

摘要：在MongoDB的bin目录下执行./mongoimport -h 192.168.77.129 --db test --collection restaurants --drop --file /usr/local/mongodb-linux-x86_64-3.0.6/DW_LABEL_DATAS... 阅读全文

posted @ 2015-10-30 16:23 松伯阅读(230) 评论(0) 推荐(0) 编辑

MongoDB项目中常用方法

摘要：使用MongoDB连接池MongoOptions来进行连接以及相关方法的调用//获得驱动地址（这里的驱动写入了配置文件中)String serverAddressStr = Configure.getInstance().getProperty("SERVER_ADDRESSES"); lo... 阅读全文

posted @ 2015-10-29 13:08 松伯阅读(577) 评论(0) 推荐(0) 编辑

Redis简介及3.0.2编译安装

摘要：由于项目需要Redis作为内存数据库，所以也开始搞Redis~Redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。... 阅读全文

posted @ 2015-10-28 22:48 松伯阅读(433) 评论(0) 推荐(0) 编辑

json字符串相关转换方法

摘要：/** json转换为Map* @param jsonStr json* @return map集合*/public static HashMap json2HashMap(String jsonStr) { HashMap data = new HashMap(); // 将json字符串转换成j... 阅读全文

posted @ 2015-10-26 17:52 松伯阅读(220) 评论(0) 推荐(0) 编辑

Spark 1.4连接mysql诡异的问题及解决

摘要：在spark-default.conf文件中明明配置了mysql的数据源连接随后启动spark-shell 执行如下测试代码：import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode,... 阅读全文

posted @ 2015-10-26 11:27 松伯阅读(1082) 评论(0) 推荐(0) 编辑

spark on hive 配置hive的metastore为mysql

摘要：hive.metastore.urisThrift uri for the remote metastore. Used by metastore client to connect to remote metastore.javax.jdo.option.ConnectionURLjdbc:mys... 阅读全文

posted @ 2015-10-24 01:41 松伯阅读(606) 评论(2) 推荐(0) 编辑

linux下安装mysql数据库与相关操作

摘要：如下命令都是用root身份安装，或者在命令前加上sudo采用yum安装方式安装yum install mysql #安装mysql客户端yum install mysql-server #安装mysql服务端判断MYSQL是否安装好:chkconfig --list|grep mysql启动mysq... 阅读全文

posted @ 2015-10-23 22:40 松伯阅读(237) 评论(0) 推荐(0) 编辑

使用SparkSQL实现多线程分页查询并写入文件

摘要：一、由于具有多张宽表且字段较多，每个宽表数据大概为4000万条，根据业务逻辑拼接别名，并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列，根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询，如果要使用SparkSQL进行分页查询，需要增加序号列，那么就在... 阅读全文

posted @ 2015-10-23 16:43 松伯阅读(5705) 评论(0) 推荐(1) 编辑

Hive架构及Hive On Spark

摘要：Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下，数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中，如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引，每个Partition... 阅读全文

posted @ 2015-10-23 16:10 松伯阅读(1528) 评论(0) 推荐(0) 编辑

Spark作业调度

摘要：Spark在任务提交时，主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG，并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS... 阅读全文

posted @ 2015-10-23 00:21 松伯阅读(571) 评论(0) 推荐(0) 编辑

最最简单的~WordCount¬

摘要：sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println)不使用reduceByKeysc.textFile("hdfs://....").fl... 阅读全文

posted @ 2015-10-21 23:36 松伯阅读(279) 评论(0) 推荐(0) 编辑

MongoDB的基本使用

摘要：use library 使用use函数切换已有的数据库或创建新的数据库show dbs 查看MongoDB中目前所有可用的数据库show collections 查看当前数据库中的所有集合在集合中插入数据>document = ({"Type":"Book","Title":"Definitive ... 阅读全文

posted @ 2015-10-21 22:21 松伯阅读(273) 评论(0) 推荐(0) 编辑

单点登录的实现

摘要：从第三方系统单点登录到目标系统，第三方系统会发送token进行验证，通过解析token，获取相应的用户信息的json串。将其set到自己系统的session中。public class sessionFilter extends OncePerRequestFilter{ // 登录页面 pr... 阅读全文

posted @ 2015-10-21 21:07 松伯阅读(349) 评论(0) 推荐(0) 编辑

将List<Map>中的datas转换为json格式写入文件

摘要：private static boolean writeToTextFileByJson(List> datas, String title, String columns, String fileName, String encode) { final BufferedWriter bw; ... 阅读全文

posted @ 2015-10-19 00:33 松伯阅读(3197) 评论(0) 推荐(0) 编辑

SparkSQL的解析详解

摘要：SparkSQL继承自Hive的接口，由于hive是基于MapReduce进行计算的，在计算过程中大量的中间数据要落地于磁盘，从而消耗了大量的I/O，降低了运行的效率，从而基于内存运算的SparkSQL应运而生。首先说下传统数据库的解析，传统数据库的解析过程是按Rusult、Data Sou... 阅读全文

posted @ 2015-10-14 00:28 松伯阅读(1192) 评论(0) 推荐(0) 编辑

spark transformation与action操作函数

摘要：一、Transformationmap(func) 返回一个新的分布式数据集，由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集，经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map... 阅读全文

posted @ 2015-10-14 00:22 松伯阅读(474) 评论(0) 推荐(0) 编辑

spark基础练习（未完)

摘要：1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle... 阅读全文

posted @ 2015-10-14 00:06 松伯阅读(452) 评论(0) 推荐(0) 编辑

工作中Linux常用命令

摘要：rpm -qa|grep -i mysqlrpm -ev mysql-server-5.1.73-5.el6_6.x86_64如果报：error: Failed dependencies: libmysqlclient.so.16()(64bit) is needed by (inst... 阅读全文

posted @ 2015-10-13 11:18 松伯阅读(296) 评论(0) 推荐(0) 编辑

Hbase与hive整合

摘要：//hive与hbase整合create table lectrure.hbase_lecture10(sname string, score int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' whth serdepr... 阅读全文

posted @ 2015-10-12 23:22 松伯阅读(434) 评论(0) 推荐(0) 编辑

Spark工程开发常用函数与方法(Scala语言)

摘要：import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport ma... 阅读全文

posted @ 2015-10-10 17:45 松伯阅读(696) 评论(0) 推荐(0) 编辑

Topology的构建

摘要：public class BlackListBolt extends BaseRichBolt{ private static Logger logger = Logger.getLogger(BlackListBolt.class); private OutputCollector collect... 阅读全文

posted @ 2015-10-10 17:24 松伯阅读(453) 评论(0) 推荐(0) 编辑

hadoop-spark-hive-hbase配置相关说明

摘要：1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z... 阅读全文

posted @ 2015-10-10 16:24 松伯阅读(631) 评论(0) 推荐(0) 编辑

Shuffle相关分析

摘要：Shuffle描述是一个过程，表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带，每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu... 阅读全文

posted @ 2015-10-10 16:16 松伯阅读(280) 评论(0) 推荐(0) 编辑

Spark运行流程概述

摘要：Application 指用户编写的Spark应用程序，其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的... 阅读全文

posted @ 2015-10-10 16:15 松伯阅读(636) 评论(0) 推荐(0) 编辑

Spark RDD简介与运行机制概述

摘要：RDD工作原理：主要分为三部分：创建RDD对象，DAG调度器创建执行计划，Task调度器分配任务并调度Worker开始运行。SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过（提交任务集）→任务调度管理(TaskSche... 阅读全文

posted @ 2015-10-10 16:13 松伯阅读(1352) 评论(0) 推荐(0) 编辑

MongoDB 3.0.6的主,从,仲裁节点搭建

摘要：在MongoDB所在路径创建log和data目录mkdir logmkdir data在data目录下创建master、slaver、arbiter路径mkdir mastermkdir slavermkdir arbiter新建日志文件在log下执行 touch mongodb.log 创建lo... 阅读全文

posted @ 2015-10-10 15:57 松伯阅读(541) 评论(0) 推荐(0) 编辑

kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转）

摘要：一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Pr... 阅读全文

posted @ 2015-10-10 15:52 松伯阅读(350) 评论(0) 推荐(0) 编辑

Spark配置参数调优

摘要：1．配置多个executor 在项目中，由于数据量为几百万甚至千万级别，如果一个executor装载的对象过多，会导致GC很慢。项目中，我们使一个worker节点执行app时启动多个executor，从而加大并发度，解决full GC慢的问题。同时，由于启动了多个exeucute，在内存与核数不变的... 阅读全文

posted @ 2015-10-10 15:47 松伯阅读(1384) 评论(0) 推荐(0) 编辑

SparkSQL项目中的应用

摘要：Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Had... 阅读全文

posted @ 2015-10-10 15:42 松伯阅读(1837) 评论(0) 推荐(0) 编辑

SparkSQL相关语句总结

摘要：1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个耗时25.766秒 ... 阅读全文

posted @ 2015-10-10 15:30 松伯阅读(41929) 评论(0) 推荐(0) 编辑

Hadoop系统架构

摘要：一、Hadoop系统架构图Hadoop1.0与hadoop2.0架构对比图YARN架构:ResourceManager–处理客户端请求–启动/监控ApplicationMaster–监控NodeManager–资源分配与调度NodeManager–单个节点上的资源管理–处理来自ResourceMan... 阅读全文

posted @ 2015-10-10 15:20 松伯阅读(3560) 评论(0) 推荐(0) 编辑

Hadoop常用命令

摘要：HDFS基本命令:hadoop fs -cmdcmd: 具体的操作，基本上与UNIX的命令行相同args:参数HDFS资源URI格式：scheme://authority/pathscheme：协议名，file或hdfsauthority：namenode主机名path：路径示例：hdfs://lo... 阅读全文

posted @ 2015-10-10 15:06 松伯阅读(746) 评论(0) 推荐(0) 编辑

spark单机模式简单搭建

摘要：待安装列表hadoophivescalaspark一.环境变量配置：~/.bash_profilePATH=$PATH:$HOME/binexport PATHJAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport SPARK... 阅读全文

posted @ 2015-10-10 15:02 松伯阅读(810) 评论(0) 推荐(0) 编辑

Spark参数配置说明

摘要：1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项spark.sql.hive.convertMetastoreParquet falsehive.exec.compress.output false如果spark.sql.hive.conver... 阅读全文

posted @ 2015-10-10 14:56 松伯阅读(12711) 评论(0) 推荐(1) 编辑

搜索

常用链接

随笔分类 (236)

随笔档案 (232)

阅读排行榜

评论排行榜

推荐排行榜

最新评论