Spark技术相关 - 随笔分类 - 信方

Spark记录-大数据简介

摘要：什么是大数据 Volume —— 数据量大随着技术的发展，人们收集信息的能力越来越强，随之获取的数据量也呈爆炸式增长。例如百度每日处理的数据量达上百PB，总的数据量规模已经到达EP级。 Velocity —— 处理速度快指的是销售、交易、计量等等人们关心的事件发生的频率。2017年双11，支付成阅读全文

posted @ 2017-12-15 13:55 信方编辑

Spark记录-spark-env.sh配置

摘要：注意: 启动脚本目前不支持Windows。如需在Windows上运行，请手工启动master和workers。 SPARK_MASTER_OPTS支持以下属性： SPARK_WORKER_OPTS支持以下属性：阅读全文

posted @ 2017-12-14 16:14 信方编辑

Spark记录-Spark性能优化解决方案

摘要：Spark性能优化的10大问题及其解决方案近期优化了一个spark流量统计的程序，此程序跑5分钟小数据量日志不到5分钟，但相同的程序跑一天大数据量日志各种失败。经优化，使用160 vcores + 480G memory，一天的日志可在2.5小时内跑完，下面对一些优化的思路方法进行梳理。近期优化阅读全文

posted @ 2017-12-13 17:19 信方编辑

Spark记录-Spark性能优化（开发、资源、数据、shuffle）

摘要：开发调优篇原则一：避免创建重复的RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的阅读全文

posted @ 2017-12-13 17:09 信方编辑

Spark记录-SparkSQL远程操作MySQL和ORACLE

摘要：1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下：阅读全文

posted @ 2017-12-11 15:24 信方编辑

Spark记录-Spark on Yarn框架

摘要：一、客户端进行操作 1、根据yarnConf来初始化yarnClient，并启动yarnClient2、创建客户端Application，并获取Application的ID，进一步判断集群中的资源是否满足executor和ApplicationMaster申请的资源，如果不满足则抛出IllegalA 阅读全文

posted @ 2017-12-08 14:31 信方编辑

Spark记录-阿里巴巴开源工具DataX数据同步工具使用

摘要：1.官网下载下载地址：https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、M 阅读全文

posted @ 2017-12-06 16:25 信方编辑

Spark记录-SparkSql官方文档中文翻译（部分转载）

摘要：1 概述（Overview） Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。 2 DataFrames DataFrame是一个分布式的数据集合，该数据集合以命名列的方阅读全文

posted @ 2017-12-06 10:55 信方编辑

Spark记录-SparkSQL一些操作

摘要：scala>val spark=new org.apache.spark.sql.SQLContext(sc) user.json {"age":"45","gender":"M","occupation":"7","userID":"4","zipcode":"02460"}{"age":"1", 阅读全文

posted @ 2017-12-05 15:49 信方编辑

Spark记录-Spark-Shell客户端操作读取Hive数据

摘要：1.拷贝hive-site.xml到spark/conf下，拷贝mysql-connector-java-xxx-bin.jar到hive/lib下 2.开启hive元数据服务：hive --service metastore 3.开启hadoop服务：sh $HADOOP_HOME/sbin/st 阅读全文

posted @ 2017-12-05 11:10 信方编辑

Spark记录-SparkSQL相关学习

摘要：$spark-sql --help 查看帮助命令 $设置任务个数，在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; $选择数据库 spark-sql>use siat; $查询数据表 spark-sql>select * from te 阅读全文

posted @ 2017-12-04 10:02 信方编辑

Spark记录-Scala程序例子（函数/List/match/option/泛型/隐式转换）

摘要：object func { def main(args:Array[String]):Unit={ //函数赋值给变量时，必须在函数后面加上空格和下划线。 def sayHello(name: String) { println("Hello, " + name) } val sayHelloFu 阅读全文

posted @ 2017-11-23 10:35 信方编辑

Spark记录-Scala基础程序实例

摘要：object learn { def main(args:Array[String]):Unit={ println("请输入两个数字：") var a:Int=Console.readLine().toInt var n:Int=Console.readLine().toInt println(expressed(a,n)+add(a,n)); val n1:I... 阅读全文

posted @ 2017-11-22 10:35 信方编辑

Spark记录-Scala记录（基础程序例子）

摘要：import scala.util.control._ object learnning { def main(args:Array[String]):Unit={ val n:Int=10 println("第"+n+"个月兔子总数为"+fun(n)) val n1:Int=1 val n2:Int=100 var count:Int=0 /... 阅读全文

posted @ 2017-11-21 15:42 信方编辑

Spark记录-spark与storm比对与选型（转载）

摘要：大数据实时处理平台市场上产品众多，本文着重讨论spark与storm的比对，最后结合适用场景进行选型。大数据实时处理平台市场上产品众多，本文着重讨论spark与storm的比对，最后结合适用场景进行选型。一、spark与storm的比较比较点 Storm Spark Streaming 实时计阅读全文

posted @ 2017-11-17 15:53 信方编辑

Spark记录-Scala类与对象小例子

摘要：//基类-Person class Person(val na: String, val ag: Int) { //属性 var name: String = na var age: Int = ag } //派生类-sz，继承基类属性 class sz(override val na:String,override val ag:Int,val se:String,val add:... 阅读全文

posted @ 2017-11-16 10:26 信方编辑

Spark记录-Scala shell命令

摘要：1.scala shell命令 2.scala基本类型 3.常用特殊字符 \n 换行符，其Unicode编码为 (\u000A) \b 回退符，其Unicode编码为 (\u0008) \t tab制表符，其Unicode编码(\u0009) \” 双引号，其Unicode编码为 (\u0022) 阅读全文

posted @ 2017-11-15 14:08 信方编辑

Spark记录-org.apache.spark.sql.hive.HiveContext与org.apache.spark.sql.SQLContext包api分析

摘要：HiveContext/SQLContext val hiveContext=new HiveContext(new SparkContext(new SparkConf().setAppName("HiveApp").setMaster("spark://master:7077"))) 定义一个h 阅读全文

posted @ 2017-11-14 16:24 信方编辑

Spark记录-本地Spark读取Hive数据简单例子

摘要：附录1：scala-spark api-http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package 阅读全文

posted @ 2017-11-14 14:11 信方编辑

Spark记录-Spark On YARN内存分配（转载）

摘要：Spark On YARN内存分配（转载） Spark On YARN内存分配（转载）说明按照Spark应用程序中的driver分布方式不同，Spark on YARN有两种模式： yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业，每个Spark ex 阅读全文

posted @ 2017-11-14 11:07 信方编辑

信方互联网硬汉

行走互联，硬汉信方

随笔分类 - Spark技术相关

公告