上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 22 下一页
摘要: (21条消息) python partition by函数_Spark Python API函数学习:pyspark API(4)_张景淇的博客-CSDN博客 阅读全文
posted @ 2022-05-22 09:59 cup_leo 阅读(72) 评论(0) 推荐(0) 编辑
摘要: import datetime def create_assist_date(datestart = None,dateend = None): # 创建日期辅助表 if datestart is None: datestart = '2022-04-25' if dateend is None: 阅读全文
posted @ 2022-05-19 20:40 cup_leo 阅读(916) 评论(0) 推荐(1) 编辑
摘要: 类别特征处理 Kaggle知识点:类别特征处理 - 知乎 (zhihu.com) 阅读全文
posted @ 2022-05-12 10:13 cup_leo 阅读(11) 评论(0) 推荐(0) 编辑
摘要: ## mapPartions def model_pred(partitionData): updatedData = [] for row in partitionData: pred_value = model.value.predict([row[2:]])[0] pred_value = f 阅读全文
posted @ 2022-05-10 21:25 cup_leo 阅读(87) 评论(0) 推荐(0) 编辑
摘要: pyspark读取hdfs 二进制文件 pickle 模型文件 model 我们在python环境训练的机器学习、深度学习模型二进制文件,比如pickle 如果需要提交到spark-submit上,需要先把文件上传到hdfs目录下,然后读取 hadoop fs -put 模型文件 hdfs目录 如 阅读全文
posted @ 2022-05-09 13:29 cup_leo 阅读(1073) 评论(0) 推荐(0) 编辑
摘要: linux 搭建 pyspark (21条消息) Linux服务器下PySpark环境安装_Viva Python的博客-CSDN博客_pyspark安装 pyspark基于python虚拟环境运行 - 倪平凡 - 博客园 (cnblogs.com) (21条消息) pyspark使用anacond 阅读全文
posted @ 2022-05-06 20:06 cup_leo 阅读(403) 评论(0) 推荐(0) 编辑
摘要: hive一个字段包含另一个字段 1.源数据表ta byu yuxiaogang array_contains(split(,' '),a) hive一个字段包含另一个字段_甲家家的博客-CSDN博客_hive一个字段包含另一个字段 where array_contains(split(phone_z 阅读全文
posted @ 2022-04-19 17:25 cup_leo 阅读(921) 评论(0) 推荐(0) 编辑
摘要: 字帖工具 - 在线工具 (tool.lu) 阅读全文
posted @ 2022-04-07 16:22 cup_leo 阅读(64) 评论(0) 推荐(0) 编辑
摘要: import datetime #打印当前时间 def printbar(): nowtime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') print("\n"+" "*8 + "%s"%nowtime) 阅读全文
posted @ 2022-03-04 14:52 cup_leo 阅读(37) 评论(0) 推荐(0) 编辑
摘要: #!/bin/bash date=`date -d "-1 day" +%F` spark-submit \ --class ****** \ --name "*** ***" \ --master yarn \ --deploy-mode client \ --num-executors 30 \ 阅读全文
posted @ 2022-03-02 09:50 cup_leo 阅读(69) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 22 下一页