会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
//
// // //
努力的孔子
上一页
1
···
19
20
21
22
23
24
25
26
27
···
41
下一页
2019年12月4日
spark教程(19)-sparkSQL 性能优化之谓词下推
摘要: 在 sql 语言中,where 表示的是过滤,这部分语句被 sql 层解析后,在数据库内部以谓词的形式出现; 在 sparkSQL 中,如果出现 where,它会现在数据库层面进行过滤,一般数据库会有索引,效率不会太低, sparkSQL 只读取过滤后的数据,大大减少数据量,提高效率,特别是提高 j
阅读全文
posted @ 2019-12-04 17:06 努力的孔子
阅读(860)
评论(0)
推荐(1)
编辑
spark教程(18)-sparkSQL 自定义函数
摘要: sparkSQL 也允许用户自定义函数,包括 UDF、UDAF,但没有 UDTF 官方 API class pyspark.sql.UDFRegistration(sparkSession)[source] register(name, f, returnType=None)[source] Reg
阅读全文
posted @ 2019-12-04 16:54 努力的孔子
阅读(1196)
评论(0)
推荐(0)
编辑
spark教程(八)-SparkSession
摘要: spark 有三大引擎,spark core、sparkSQL、sparkStreaming, spark core 的关键抽象是 SparkContext、RDD; SparkSQL 的关键抽象是 SparkSession、DataFrame; sparkStreaming 的关键抽象是 Stre
阅读全文
posted @ 2019-12-04 14:29 努力的孔子
阅读(28061)
评论(0)
推荐(1)
编辑
2019年11月28日
TCP
摘要: 首先认识下网络层级 应用层:传递哪种数据,如 http 【大件、小件】 传输层:传输数据的方式,如 TCP、UDP 【干线运输】 网络层:IP 【物流网点】 链路层:具体的传输工具 【卡车】 TCP,传输控制层协议,提供可靠的数据流服务; 当网络不稳定、网络繁忙、网络故障时,基本的网络传输不能正常工
阅读全文
posted @ 2019-11-28 17:26 努力的孔子
阅读(282)
评论(0)
推荐(0)
编辑
关系型数据库基础
摘要: 主键 如果一个属性或者一组属性能唯一标识一行数据,那么这个属性(组)就是主键; 数据表必须有主键,且只能有一个主键,且主键不能重复; 如果是一个属性作为主键,代表列的完整性约束; 如果是一组属性作为主键,代表表的完整性约束; 原则 1. 有且只有一个 2. 唯一性原则:不能重复 3. 最小化原则:如
阅读全文
posted @ 2019-11-28 16:27 努力的孔子
阅读(195)
评论(0)
推荐(0)
编辑
spark教程(16)-Streaming 之 DStream 详解
摘要: DStream 其实是 RDD 的序列,它的语法与 RDD 类似,分为 transformation(转换) 和 output(输出) 两种操作; DStream 的转换操作分为 无状态转换 和 有状态转换,且 tansformation 也是惰性的; DStream 的输出操作请参考 我的博客 S
阅读全文
posted @ 2019-11-28 15:09 努力的孔子
阅读(1748)
评论(0)
推荐(0)
编辑
2019年11月27日
spark教程(15)-Streaming
摘要: Spark Streaming 是一个分布式数据流处理框架,它可以近乎实时的处理流数据,它易编程,可以处理大量数据,并且能把实时数据与历史数据结合起来处理。 Streaming 使得 spark 具有了流式处理的能力,它为数据流式处理提供了高层抽象,底层仍然是 spark,所以它具有 spark 的
阅读全文
posted @ 2019-11-27 14:29 努力的孔子
阅读(970)
评论(0)
推荐(0)
编辑
2019年11月25日
spark教程(14)-共享变量
摘要: spark 使用的架构是无共享的,数据分布在不同节点,每个节点有独立的 CPU、内存,不存在全局的内存使得变量能够共享,驱动程序和任务之间通过消息共享数据 举例来说,如果一个 RDD 操作使用了驱动程序中的变量,spark 会将这个变量的副本和 task 一起发送给 executor 中的执行者,对
阅读全文
posted @ 2019-11-25 15:42 努力的孔子
阅读(1350)
评论(0)
推荐(0)
编辑
2019年11月21日
Hive 教程(十)-UDF
摘要: hive 虽然自带了很多函数,但是毕竟有限,无法满足所有业务场景,用户可以自定义函数来实现特定功能 UDF user define function,用户自定义函数 可以分为 3 类 UDF:一进一出 UDAF:聚集函数,多进一出,user define aggregation function U
阅读全文
posted @ 2019-11-21 14:33 努力的孔子
阅读(928)
评论(0)
推荐(0)
编辑
2019年11月20日
multivariate_normal 多元正态分布
摘要: 多元正态分布 正态分布大家都非常熟悉了,多元正态分布就是多维数据的正态分布,其概率密度函数为 上式为 x 服从 k 元正态分布,x 为 k 维向量;|Σ| 代表协方差矩阵的行列式 二维正态分布概率密度函数为钟形曲面,等高线是椭圆线族,并且二维正态分布的两个边缘分布都是一维正态分布,如图 np.ran
阅读全文
posted @ 2019-11-20 16:27 努力的孔子
阅读(18041)
评论(0)
推荐(2)
编辑
上一页
1
···
19
20
21
22
23
24
25
26
27
···
41
下一页
导航
博客园
首页
新随笔
新文章
联系
订阅
管理