sparksql工程小记
摘要:最近做一个oracle项目迁移工作,跟着spark架构师学着做,进行一些方法的总结。 1、首先,创建SparkSession对象(老版本为sparkContext) val session = SparkSession.builder().appName("app1").getOrCreate()
阅读全文
posted @
2017-04-30 16:12
松伯
阅读(793)
推荐(0) 编辑
spark集成hbase与hive数据转换与代码练习
摘要:帮一个朋友写个样例,顺便练手啦~一直在做平台的各种事,但是代码后续还要精进啊。。。
阅读全文
posted @
2017-02-12 03:38
松伯
阅读(657)
推荐(0) 编辑
主流大数据技术全体系参数与搭建与后台代码工程框架的编写(百分之70)
摘要:之前查阅源码啊,性能测试啊调优啊。。基本告一段落,项目也接近尾声,那么整理下spark所有配置参数与优化策略,方便以后开发与配置: Spark安装配置与代码框架 spark-default.conf 配置 spark.executor.instance 参数,向Yarn申请创建的资源池实例数 spa
阅读全文
posted @
2016-12-29 11:26
松伯
阅读(2045)
推荐(0) 编辑
Spark代码调优(一)
摘要:环境极其恶劣情况下: import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SQLContext} import org.ap
阅读全文
posted @
2016-11-18 00:21
松伯
阅读(21873)
推荐(0) 编辑
Spark性能测试报告与调优参数
摘要:1、代码中尽量避免group by函数,如果需要数据聚合,group形式的为rdd.map(x=>(x.chatAt(0),x)).groupbyKey().mapValues((x=>x.toSet.size)).collection() 改为 rdd.map(x=>(x.chatAt(0),x)
阅读全文
posted @
2016-11-14 01:16
松伯
阅读(2400)
推荐(0) 编辑
Spark shuffle详细过程
摘要:有许多场景下,我们需要进行跨服务器的数据整合,比如两个表之间,通过Id进行join操作,你必须确保所有具有相同id的数据整合到相同的块文件中。那么我们先说一下mapreduce的shuffle过程。 Mapreduce的shuffle的计算过程是在executor中划分mapper与reducer。
阅读全文
posted @
2016-11-13 14:05
松伯
阅读(7854)
推荐(0) 编辑
Spark 1.6以后的内存管理机制
摘要:Spark 内部管理机制 Spark的内存管理自从1.6开始改变。老的内存管理实现自自staticMemoryManager类,然而现在它被称之为”legacy”. “Legacy” 默认已经被废弃掉了,它意味着相同的代码在1.5版本与1.6版本的输出结果将会不同。需要注意的是,出于兼容性的考虑,你
阅读全文
posted @
2016-11-13 10:29
松伯
阅读(1691)
推荐(0) 编辑
Parquet文件结构笔记
摘要:Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,那么这里就总结下Parquet数据结构到底是什么样的呢? 一个Parquet文件是由一个header以及一个或多个block块组成,以一个fo
阅读全文
posted @
2016-06-06 22:24
松伯
阅读(8650)
推荐(1) 编辑
Spark工程开发前台技术实现与后台函数调用
摘要:Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上50倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Hado
阅读全文
posted @
2016-04-10 01:52
松伯
阅读(1309)
推荐(0) 编辑
Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析
摘要:废话就不多说了,直接开始啦~ 安装环境变量: yum install gcc yum install gcc-c++ 安装make,这个是自动编译源码的工具 yum install make yum install autoconfautomake libtool cmake 封装了底层的终端功能
阅读全文
posted @
2016-04-02 17:11
松伯
阅读(2848)
推荐(0) 编辑
用户画像的技术选型与架构实现
摘要:这里讲解下用户画像的技术架构和整体实现,那么就从数据整理、数据平台、面向应用三个方面来讨论一个架构的实现(个人见解)。 数据整理: 1、数据指标的的梳理来源于各个系统日常积累的日志记录系统,通过sqoop导入hdfs,也可以用代码来实现,比如spark的jdbc连接传统数据库进行数据的cache。还
阅读全文
posted @
2016-02-27 12:33
松伯
阅读(6495)
推荐(0) 编辑
获取表头信息
摘要:sparksql中获取表头信息方法一:可以使用 describetable; 方法二:先SEThive.cli.print.header=true; 然后 select * from table limit 0;代码中的使用直接通过list> tableHead =jdbcBaseDao.getBa...
阅读全文
posted @
2016-01-25 13:43
松伯
阅读(1359)
推荐(0) 编辑
Spark on Yarn年度知识整理
摘要:大数据体系结构:Spark简介Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布...
阅读全文
posted @
2016-01-20 21:04
松伯
阅读(1074)
推荐(0) 编辑
Spark1.6 DataSets简介
摘要:Apache Spark提供了强大的API,以便使开发者为使用复杂的分析成为了可能。通过引入SparkSQL,让开发者可以使用这些高级API接口来从事结构化数据的工作(例如数据库表,JSON文件),并提供面向对象使用RDD的API,开发只需要调用相关 的方法便可使用spark来进行数据的存储与计算。
阅读全文
posted @
2016-01-11 21:42
松伯
阅读(877)
推荐(0) 编辑
Spark on Yarn 架构解析
摘要:。一、Hadoop Yarn组件介绍:我们都知道yarn重构根本的思想,是将原有的JobTracker的两个主要功能资源管理器 和 任务调度监控 分离成单独的组件。新的架构使用全局管理所有应用程序的计算资源分配。 主要包含三个组件ResourceManager 、NodeManager和Applic...
阅读全文
posted @
2016-01-10 11:32
松伯
阅读(2889)
推荐(2) 编辑
SparkSql官方文档中文翻译(java版本)
摘要:1 概述(Overview)2 DataFrames2.1 入口:SQLContext(Starting Point: SQLContext)2.2 创建DataFrames(Creating DataFrames)2.3 DataFrame操作(DataFrame Operations)2.4 运...
阅读全文
posted @
2015-12-29 21:00
松伯
阅读(6322)
推荐(0) 编辑
Kmeans算法学习与SparkMlLib Kmeans算法尝试
摘要:K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。该算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使...
阅读全文
posted @
2015-12-15 22:28
松伯
阅读(524)
推荐(0) 编辑
Spark RDDRelation
摘要:package main.asiainfo.coc.sparksqlimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}case class Record(key: Int, v...
阅读全文
posted @
2015-12-13 15:23
松伯
阅读(459)
推荐(0) 编辑
spark MapOutputTrackerMaster
摘要:最近用了一个RowNumber() over()函数 进行三张4000万数据的关联筛选,建表语句如下:create table CiCustomerPortrait2 as SELECT ROW_NUMBER() OVER() as id,* from (select t_7.phone_no,t_...
阅读全文
posted @
2015-12-09 10:29
松伯
阅读(3440)
推荐(0) 编辑
Spark MLlib知识点学习整理
摘要:MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法,返...
阅读全文
posted @
2015-12-06 22:02
松伯
阅读(2241)
推荐(0) 编辑