会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
45
下一页
2020年4月29日
数据源Data Source--通用的数据加载/保存功能
摘要: Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作,也可以用来创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。本节介绍使用Spark Data Sources加载和保存数据的一般方法,然后介绍可用于内置数据
阅读全文
posted @ 2020-04-29 10:19 大葱拌豆腐
阅读(748)
评论(0)
推荐(0)
2020年4月28日
Hive Row Formats&SerDe
摘要: Serde是 Serializer/Deserializer的简写。hive使用Serde进行行对象的序列与反序列化。 What is a SerDe? SerDe is a short name for "Serializer and Deserializer." Hive uses SerDe
阅读全文
posted @ 2020-04-28 18:33 大葱拌豆腐
阅读(2216)
评论(0)
推荐(0)
sparksql读取parquet格式hive表的配置
摘要: 使用sparksql访问几个hive表join的情况时结果为空,且这个sql在hive里执行是成功的。 val sparkSession = SparkSession .builder() .config("jars","lib/*") .appName("Spark Hive Example")
阅读全文
posted @ 2020-04-28 18:16 大葱拌豆腐
阅读(2668)
评论(0)
推荐(0)
2020年4月26日
Apache Spark Delta Lake 写数据使用及实现原理代码解析(转载)
摘要: Delta Lake 写数据是其最基本的功能,而且其使用和现有的 Spark 写 Parquet 文件基本一致,在介绍 Delta Lake 实现原理之前先来看看如何使用它,具体使用如下: df.write.format("delta").save("/data/yangping.wyp/delta
阅读全文
posted @ 2020-04-26 14:50 大葱拌豆腐
阅读(1853)
评论(0)
推荐(0)
Delta Lake源码分析(一)(转载)
摘要: 转载自:https://www.cnblogs.com/kehanc/p/12107630.html 本文主要从代码的具体实现方面进行讲解,关于delta lake的事务日志原理,可以看这篇博客,讲解的很详细。 https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTM
阅读全文
posted @ 2020-04-26 10:10 大葱拌豆腐
阅读(598)
评论(0)
推荐(0)
Spark SQL的Parquet那些事儿
摘要: Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是spark sql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时,处于兼容的原因所有的列都被自动转化为了
阅读全文
posted @ 2020-04-26 08:48 大葱拌豆腐
阅读(3825)
评论(0)
推荐(0)
spark生成大宽表的parquet性能优化(转载)
摘要: 1. 背景介绍 将一份数据量很大的用户属性文件解析成结构化的数据供查询框架查询剖析,其中用户属性包含用户标识,平台类型,性别,年龄,学历,兴趣爱好,购物倾向等等,大概共有七百个左右的标签属性。为了查询框架能够快速查询出有特定标签的人群,将最终的存储结果定义为了将七百个左右的标签属性展平存储为parq
阅读全文
posted @ 2020-04-26 08:37 大葱拌豆腐
阅读(1403)
评论(0)
推荐(0)
2020年4月23日
Spark读取和使用Hive Permanent Function 原理
摘要: 背景在Spark 1.* 版本中不支持Hive Perment Function的加载,使用起来不是很方便;在Spark 2.* 版本中通过HiveExternalCatalog 中的HiveClient 来直接和hive metaStore交互,轻松实现Hive Perment Function的
阅读全文
posted @ 2020-04-23 14:50 大葱拌豆腐
阅读(665)
评论(0)
推荐(0)
2020年4月22日
Scala的柯里化及其应用
摘要: 一、概念 柯里化(currying, 以逻辑学家Haskell Brooks Curry的名字命名)指的是将原来接受两个参数的函数变成新的接受一个参数的函数的过程。新的函数返回一个以原有第二个参数作为参数的函数。 在Scala中方法和函数有细微的差别,通常编译器会自动完成方法到函数的转换。 二、Sc
阅读全文
posted @ 2020-04-22 14:51 大葱拌豆腐
阅读(735)
评论(0)
推荐(0)
Scala中的函数和方法
摘要: 函数是一组一起执行一个任务的语句。 您可以把代码划分到不同的函数中。如何划分代码到不同的函数中是由您来决定的,但在逻辑上,划分通常是根据每个函数执行一个特定的任务来进行的。 Scala 有函数和方法,二者在语义上的区别很小。Scala 方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说
阅读全文
posted @ 2020-04-22 11:45 大葱拌豆腐
阅读(692)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
45
下一页
公告