上一页 1 2 3 4 5 6 ··· 45 下一页
摘要: 当通过spark读取mysql时,如果数据量比较大,为了加快速度,通常会起多个task并行拉取mysql数据。其中一个api是 def jdbc(url: String, table: String, columnName: String, lowerBound: Long, upperBound: 阅读全文
posted @ 2020-06-04 14:25 大葱拌豆腐 阅读(2111) 评论(0) 推荐(0) 编辑
摘要: 作者:大数据学习与分享链接:https://zhuanlan.zhihu.com/p/134122356 Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设。 阅读全文
posted @ 2020-06-02 16:48 大葱拌豆腐 阅读(1253) 评论(0) 推荐(0) 编辑
摘要: //@是为了给模式匹配起个变量名,一般格式为:variableName@pattern,示例: object VariableTest { def main(args: Array[String]): Unit = { val list = List(1, 2, 3, 4, 5, 6) list m 阅读全文
posted @ 2020-06-01 20:20 大葱拌豆腐 阅读(1614) 评论(0) 推荐(0) 编辑
摘要: 首先,对RDD相关的操作需要传入闭包函数,如果这个函数需要访问外部定义的变量,就需要满足一定条件(比如必须可被序列化),否则会抛出运行时异常。闭包函数在最终传入到executor执行,需要经历以下步骤: 1.driver通过反射,运行时找到闭包访问的变量,并封装成一个对象,然后序列化该对象 2.将序 阅读全文
posted @ 2020-06-01 18:48 大葱拌豆腐 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 闭包的作用可以理解为:函数可以访问函数外部定义的变量,但是函数内部对该变量进行的修改,在函数外是不可见的,即对函数外源变量不会产生影响。 其实,在学习Spark时,一个比较难理解的点就是,在集群模式下,定义的变量和方法作用域的范围和生命周期。这在你操作RDD时,比如调用一些函数map、foreach 阅读全文
posted @ 2020-06-01 18:47 大葱拌豆腐 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 在Spark中: driver是运行用户编写Application的main()函数的地方,具体负责DAG的构建、任务的划分、task的生成与调度等。job,stage,task生成都离不开rdd自身,rdd的相关的操作不能缺少driver端的sparksession/sparkcontext。 e 阅读全文
posted @ 2020-06-01 18:46 大葱拌豆腐 阅读(2182) 评论(0) 推荐(0) 编辑
摘要: 基于版本:Spark 2.2.0 把一些概念搞清楚,Spark轮廓就清晰了。 什么是Catalog,中文翻译目录,那啥叫目录呢?下面是百度百科的解释: `目录,是指书籍正文前所载的目次,是揭示和报道图书的工具。目录是记录图书的书名、著者、出版与收藏等情况,按照一定的次序编排而成,为反映馆藏、指导阅读 阅读全文
posted @ 2020-05-21 18:29 大葱拌豆腐 阅读(1245) 评论(0) 推荐(0) 编辑
摘要: 代码如下: val conf = new SparkConf().setAppName("testMysqlToHiveJdbc") .setMaster("local") val spark = SparkSession.builder() .config(conf) .enableHiveSup 阅读全文
posted @ 2020-05-13 14:10 大葱拌豆腐 阅读(2026) 评论(0) 推荐(0) 编辑
摘要: 很多人在spark中使用默认提供的jdbc方法时,在数据库数据较大时经常发现任务 hang 住,其实是单线程任务过重导致,这时候需要提高读取的并发度。 下文以 mysql 为例进行说明。 在spark中使用jdbc 在 spark-env.sh 文件中加入: export SPARK_CLASSPA 阅读全文
posted @ 2020-05-13 13:59 大葱拌豆腐 阅读(1848) 评论(0) 推荐(0) 编辑
摘要: 转载:https://databricks.com/blog/2019/09/24/diving-into-delta-lake-schema-enforcement-evolution.html 在实践经验中,我们知道数据总是在不断演变和增长,我们对于这个世界的心智模型必须要适应新的数据,甚至要应 阅读全文
posted @ 2020-04-29 16:50 大葱拌豆腐 阅读(544) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 45 下一页