// // // //
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 41 下一页

2019年12月4日

摘要: 在 sql 语言中,where 表示的是过滤,这部分语句被 sql 层解析后,在数据库内部以谓词的形式出现; 在 sparkSQL 中,如果出现 where,它会现在数据库层面进行过滤,一般数据库会有索引,效率不会太低, sparkSQL 只读取过滤后的数据,大大减少数据量,提高效率,特别是提高 j 阅读全文
posted @ 2019-12-04 17:06 努力的孔子 阅读(860) 评论(0) 推荐(1) 编辑
 
摘要: sparkSQL 也允许用户自定义函数,包括 UDF、UDAF,但没有 UDTF 官方 API class pyspark.sql.UDFRegistration(sparkSession)[source] register(name, f, returnType=None)[source] Reg 阅读全文
posted @ 2019-12-04 16:54 努力的孔子 阅读(1196) 评论(0) 推荐(0) 编辑
 
摘要: spark 有三大引擎,spark core、sparkSQL、sparkStreaming, spark core 的关键抽象是 SparkContext、RDD; SparkSQL 的关键抽象是 SparkSession、DataFrame; sparkStreaming 的关键抽象是 Stre 阅读全文
posted @ 2019-12-04 14:29 努力的孔子 阅读(28061) 评论(0) 推荐(1) 编辑
 

2019年11月28日

摘要: 首先认识下网络层级 应用层:传递哪种数据,如 http 【大件、小件】 传输层:传输数据的方式,如 TCP、UDP 【干线运输】 网络层:IP 【物流网点】 链路层:具体的传输工具 【卡车】 TCP,传输控制层协议,提供可靠的数据流服务; 当网络不稳定、网络繁忙、网络故障时,基本的网络传输不能正常工 阅读全文
posted @ 2019-11-28 17:26 努力的孔子 阅读(282) 评论(0) 推荐(0) 编辑
 
摘要: 主键 如果一个属性或者一组属性能唯一标识一行数据,那么这个属性(组)就是主键; 数据表必须有主键,且只能有一个主键,且主键不能重复; 如果是一个属性作为主键,代表列的完整性约束; 如果是一组属性作为主键,代表表的完整性约束; 原则 1. 有且只有一个 2. 唯一性原则:不能重复 3. 最小化原则:如 阅读全文
posted @ 2019-11-28 16:27 努力的孔子 阅读(195) 评论(0) 推荐(0) 编辑
 
摘要: DStream 其实是 RDD 的序列,它的语法与 RDD 类似,分为 transformation(转换) 和 output(输出) 两种操作; DStream 的转换操作分为 无状态转换 和 有状态转换,且 tansformation 也是惰性的; DStream 的输出操作请参考 我的博客 S 阅读全文
posted @ 2019-11-28 15:09 努力的孔子 阅读(1748) 评论(0) 推荐(0) 编辑
 

2019年11月27日

摘要: Spark Streaming 是一个分布式数据流处理框架,它可以近乎实时的处理流数据,它易编程,可以处理大量数据,并且能把实时数据与历史数据结合起来处理。 Streaming 使得 spark 具有了流式处理的能力,它为数据流式处理提供了高层抽象,底层仍然是 spark,所以它具有 spark 的 阅读全文
posted @ 2019-11-27 14:29 努力的孔子 阅读(970) 评论(0) 推荐(0) 编辑
 

2019年11月25日

摘要: spark 使用的架构是无共享的,数据分布在不同节点,每个节点有独立的 CPU、内存,不存在全局的内存使得变量能够共享,驱动程序和任务之间通过消息共享数据 举例来说,如果一个 RDD 操作使用了驱动程序中的变量,spark 会将这个变量的副本和 task 一起发送给 executor 中的执行者,对 阅读全文
posted @ 2019-11-25 15:42 努力的孔子 阅读(1350) 评论(0) 推荐(0) 编辑
 

2019年11月21日

摘要: hive 虽然自带了很多函数,但是毕竟有限,无法满足所有业务场景,用户可以自定义函数来实现特定功能 UDF user define function,用户自定义函数 可以分为 3 类 UDF:一进一出 UDAF:聚集函数,多进一出,user define aggregation function U 阅读全文
posted @ 2019-11-21 14:33 努力的孔子 阅读(928) 评论(0) 推荐(0) 编辑
 

2019年11月20日

摘要: 多元正态分布 正态分布大家都非常熟悉了,多元正态分布就是多维数据的正态分布,其概率密度函数为 上式为 x 服从 k 元正态分布,x 为 k 维向量;|Σ| 代表协方差矩阵的行列式 二维正态分布概率密度函数为钟形曲面,等高线是椭圆线族,并且二维正态分布的两个边缘分布都是一维正态分布,如图 np.ran 阅读全文
posted @ 2019-11-20 16:27 努力的孔子 阅读(18041) 评论(0) 推荐(2) 编辑
 
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 41 下一页