上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 21 下一页
摘要: PyCharm 2021.2.1 汉化便携增强版 - 果核剥壳 (ghxi.com) 阅读全文
posted @ 2022-01-04 13:52 cup_leo 阅读(31) 评论(0) 推荐(0) 编辑
摘要: #!/bin/bash #spark参数按照实际情况配置 hive -e " SET mapreduce.job.queuename=batch; set hive.execution.engine=spark; set spark.executor.memory=4g; set spark.exe 阅读全文
posted @ 2021-12-29 09:39 cup_leo 阅读(581) 评论(0) 推荐(0) 编辑
摘要: date=`date -d "-1 day" +%F` spark-submit \ --name "suanfa_zjk_tyc_tjy_export" \ --master yarn \ --deploy-mode cluster \ --driver-memory 3G \ --executo 阅读全文
posted @ 2021-12-15 14:28 cup_leo 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 1、机器学习中模型优化不得不思考的几个问题 - 云+社区 - 腾讯云 (tencent.com) 2、机器学习模型应该如何调优?这里有三大改进策略 (thepaper.cn) 3、机器学习模型的超参数优化 (baidu.com) 阅读全文
posted @ 2021-12-10 17:57 cup_leo 阅读(18) 评论(0) 推荐(0) 编辑
摘要: features = [] diff_windowns = [1,3,6,12] groups = ['sum','mean','std','max','min','count'] for d in diff_windowns: exec("""last_{}_month = df[df['diff 阅读全文
posted @ 2021-12-10 11:42 cup_leo 阅读(451) 评论(0) 推荐(0) 编辑
摘要: Spark性能优化指南——基础篇 - 美团技术团队 (meituan.com) Spark性能优化指南——高级篇 - 美团技术团队 (meituan.com) 阅读全文
posted @ 2021-12-09 17:05 cup_leo 阅读(88) 评论(0) 推荐(0) 编辑
摘要: #定义合并函数:将有共同核心点的临时聚类簇合并 test_list_set = [{1,2,3},{3,4,5},{10,12,13},{4,5,8},{13,15},{7,8},{20,22}] result = [] for index, t0 in enumerate(test_list_se 阅读全文
posted @ 2021-12-08 16:28 cup_leo 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 1. 基本原理其实,这种问题本来是很容易解决的,只要设计好了数据相似度的度量方法(有关相似度量的方法详细可参考我之前的博客:数据相似性的度量方法总结)计算所有数据与查询的距离,比较大小即可。但是随着数据量的增大以及数据维度的提高,这种方法就很难在现实中应用了,因为效率会非常低。解决此类问题的思路基本 阅读全文
posted @ 2021-12-08 11:35 cup_leo 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 1、(45条消息) PySpark SQL常用语法_baidu_26454813的博客-CSDN博客_pyspark sql 2、spark dataframe新增一列的四种方法: spark dataframe新增一列的四种方法【附源码】_香山上的麻雀_51CTO博客 3、Spark Repart 阅读全文
posted @ 2021-12-07 14:39 cup_leo 阅读(231) 评论(0) 推荐(0) 编辑
摘要: Apache Spark是一个对开发者提供完备的库和API的集群计算系统,并且支持多种语言,包括Java,Python,R和Scala。SparkSQL相当于Apache Spark的一个模块,在DataFrame API的帮助下可用来处理非结构化数据。 通过名为PySpark的Spark Pyth 阅读全文
posted @ 2021-12-07 11:08 cup_leo 阅读(851) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 21 下一页