随笔- 310  文章- 1  评论- 0  阅读- 85655 
03 2021 档案
linux下curl命令使用
摘要:curl是一个利用url规则在命令行下工作的文件传输工具,可以说是一款很强大的http命令行工具。它支持文件的上传和下载 Usage: curl [options...] <url> -A/--user-agent <string> 设置用户代理发送给服务器 -b/--cookie <name=st 阅读全文
posted @ 2021-03-17 22:58 boye169 阅读(189) 评论(0) 推荐(0) 编辑
pyspark SQL
摘要:1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark 阅读全文
posted @ 2021-03-15 23:50 boye169 阅读(217) 评论(0) 推荐(0) 编辑
pyspark 左连接 右连接
摘要:pathA = [('a',1),('b',1),('c',2),('d',3)] pathB = [('c',1),('d',3),('e',3),('f',4),] a = sc.parallelize(pathA) b = sc.parallelize(pathB) a.join(b).col 阅读全文
posted @ 2021-03-15 23:45 boye169 阅读(388) 评论(0) 推荐(0) 编辑
pyspark union、intersection、subtract、cartesian用法
摘要:union、intersection、subtract、cartesian rdd1 = sc.parallelize([1,2,4,5,2,3]) rdd2 = sc.parallelize([4,6,5,7,8,6]) rdd1.union(rdd2).collect(): 所有rdd1和rdd 阅读全文
posted @ 2021-03-15 23:41 boye169 阅读(485) 评论(0) 推荐(0) 编辑
pyspark基本使用
摘要:【Example】 from pysoark. sql import SparkSession def split_line(line): try: return line.split(b"\t") except:pass def map_partitions(partitions): for li 阅读全文
posted @ 2021-03-15 23:31 boye169 阅读(469) 评论(0) 推荐(0) 编辑
python map、reduce、filter用法
摘要:map map() 会根据提供的函数对指定序列做映射 map(function, iterable, ...) 参数: function:函数 iterable:一个或多个序列 list(map(lambda x: x ** 2, [1, 2, 3, 4, 5])) #[1, 4, 9, 16, 2 阅读全文
posted @ 2021-03-12 00:03 boye169 阅读(97) 评论(0) 推荐(0) 编辑
python translate 用法
摘要:描述 translate() 方法根据参数table给出的表(包含 256 个字符)转换字符串的字符,要过滤掉的字符放到 deletechars 参数中 translate()方法语法: str.translate(table) bytes.translate(table[, delete]) by 阅读全文
posted @ 2021-03-03 22:02 boye169 阅读(456) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示