随笔分类 -  Spark技术相关

摘要:什么是大数据 Volume —— 数据量大 随着技术的发展,人们收集信息的能力越来越强,随之获取的数据量也呈爆炸式增长。例如百度每日处理的数据量达上百PB,总的数据量规模已经到达EP级。 Velocity —— 处理速度快 指的是销售、交易、计量等等人们关心的事件发生的频率。2017年双11,支付成 阅读全文
posted @ 2017-12-15 13:55 信方 编辑
摘要:注意: 启动脚本目前不支持Windows。如需在Windows上运行,请手工启动master和workers。 SPARK_MASTER_OPTS支持以下属性: SPARK_WORKER_OPTS支持以下属性: 阅读全文
posted @ 2017-12-14 16:14 信方 编辑
摘要:Spark性能优化的10大问题及其解决方案 近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。 近期优化 阅读全文
posted @ 2017-12-13 17:19 信方 编辑
摘要:开发调优篇 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的 阅读全文
posted @ 2017-12-13 17:09 信方 编辑
摘要:1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下: 阅读全文
posted @ 2017-12-11 15:24 信方 编辑
摘要:一、客户端进行操作 1、根据yarnConf来初始化yarnClient,并启动yarnClient2、创建客户端Application,并获取Application的ID,进一步判断集群中的资源是否满足executor和ApplicationMaster申请的资源,如果不满足则抛出IllegalA 阅读全文
posted @ 2017-12-08 14:31 信方 编辑
摘要:1.官网下载 下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、M 阅读全文
posted @ 2017-12-06 16:25 信方 编辑
摘要:1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。 2 DataFrames DataFrame是一个分布式的数据集合,该数据集合以命名列的方 阅读全文
posted @ 2017-12-06 10:55 信方 编辑
摘要:scala>val spark=new org.apache.spark.sql.SQLContext(sc) user.json {"age":"45","gender":"M","occupation":"7","userID":"4","zipcode":"02460"}{"age":"1", 阅读全文
posted @ 2017-12-05 15:49 信方 编辑
摘要:1.拷贝hive-site.xml到spark/conf下,拷贝mysql-connector-java-xxx-bin.jar到hive/lib下 2.开启hive元数据服务:hive --service metastore 3.开启hadoop服务:sh $HADOOP_HOME/sbin/st 阅读全文
posted @ 2017-12-05 11:10 信方 编辑
摘要:$spark-sql --help 查看帮助命令 $设置任务个数,在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; $选择数据库 spark-sql>use siat; $查询数据表 spark-sql>select * from te 阅读全文
posted @ 2017-12-04 10:02 信方 编辑
摘要:object func { def main(args:Array[String]):Unit={ //函数赋值给变量时, 必须在函数后面加上空格和下划线。 def sayHello(name: String) { println("Hello, " + name) } val sayHelloFu 阅读全文
posted @ 2017-11-23 10:35 信方 编辑
摘要:object learn { def main(args:Array[String]):Unit={ println("请输入两个数字:") var a:Int=Console.readLine().toInt var n:Int=Console.readLine().toInt println(expressed(a,n)+add(a,n)); val n1:I... 阅读全文
posted @ 2017-11-22 10:35 信方 编辑
摘要:import scala.util.control._ object learnning { def main(args:Array[String]):Unit={ val n:Int=10 println("第"+n+"个月兔子总数为"+fun(n)) val n1:Int=1 val n2:Int=100 var count:Int=0 /... 阅读全文
posted @ 2017-11-21 15:42 信方 编辑
摘要:大数据实时处理平台市场上产品众多,本文着重讨论spark与storm的比对,最后结合适用场景进行选型。 大数据实时处理平台市场上产品众多,本文着重讨论spark与storm的比对,最后结合适用场景进行选型。 一、spark与storm的比较 比较点 Storm Spark Streaming 实时计 阅读全文
posted @ 2017-11-17 15:53 信方 编辑
摘要://基类-Person class Person(val na: String, val ag: Int) { //属性 var name: String = na var age: Int = ag } //派生类-sz,继承基类属性 class sz(override val na:String,override val ag:Int,val se:String,val add:... 阅读全文
posted @ 2017-11-16 10:26 信方 编辑
摘要:1.scala shell命令 2.scala基本类型 3.常用特殊字符 \n 换行符,其Unicode编码为 (\u000A) \b 回退符,其Unicode编码为 (\u0008) \t tab制表符 ,其Unicode编码(\u0009) \” 双引号,其Unicode编码为 (\u0022) 阅读全文
posted @ 2017-11-15 14:08 信方 编辑
摘要:HiveContext/SQLContext val hiveContext=new HiveContext(new SparkContext(new SparkConf().setAppName("HiveApp").setMaster("spark://master:7077"))) 定义一个h 阅读全文
posted @ 2017-11-14 16:24 信方 编辑
摘要:附录1:scala-spark api-http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package 阅读全文
posted @ 2017-11-14 14:11 信方 编辑
摘要:Spark On YARN内存分配(转载) Spark On YARN内存分配(转载) 说明 按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。 当在YARN上运行Spark作业,每个Spark ex 阅读全文
posted @ 2017-11-14 11:07 信方 编辑

点击右上角即可分享
微信分享提示