12 2021 档案
摘要:#!/bin/bash #spark参数按照实际情况配置 hive -e " SET mapreduce.job.queuename=batch; set hive.execution.engine=spark; set spark.executor.memory=4g; set spark.exe
阅读全文
摘要:date=`date -d "-1 day" +%F` spark-submit \ --name "suanfa_zjk_tyc_tjy_export" \ --master yarn \ --deploy-mode cluster \ --driver-memory 3G \ --executo
阅读全文
摘要:1、机器学习中模型优化不得不思考的几个问题 - 云+社区 - 腾讯云 (tencent.com) 2、机器学习模型应该如何调优?这里有三大改进策略 (thepaper.cn) 3、机器学习模型的超参数优化 (baidu.com)
阅读全文
摘要:features = [] diff_windowns = [1,3,6,12] groups = ['sum','mean','std','max','min','count'] for d in diff_windowns: exec("""last_{}_month = df[df['diff
阅读全文
摘要:Spark性能优化指南——基础篇 - 美团技术团队 (meituan.com) Spark性能优化指南——高级篇 - 美团技术团队 (meituan.com)
阅读全文
摘要:#定义合并函数:将有共同核心点的临时聚类簇合并 test_list_set = [{1,2,3},{3,4,5},{10,12,13},{4,5,8},{13,15},{7,8},{20,22}] result = [] for index, t0 in enumerate(test_list_se
阅读全文
摘要:1. 基本原理其实,这种问题本来是很容易解决的,只要设计好了数据相似度的度量方法(有关相似度量的方法详细可参考我之前的博客:数据相似性的度量方法总结)计算所有数据与查询的距离,比较大小即可。但是随着数据量的增大以及数据维度的提高,这种方法就很难在现实中应用了,因为效率会非常低。解决此类问题的思路基本
阅读全文
摘要:1、(45条消息) PySpark SQL常用语法_baidu_26454813的博客-CSDN博客_pyspark sql 2、spark dataframe新增一列的四种方法: spark dataframe新增一列的四种方法【附源码】_香山上的麻雀_51CTO博客 3、Spark Repart
阅读全文
摘要:Apache Spark是一个对开发者提供完备的库和API的集群计算系统,并且支持多种语言,包括Java,Python,R和Scala。SparkSQL相当于Apache Spark的一个模块,在DataFrame API的帮助下可用来处理非结构化数据。 通过名为PySpark的Spark Pyth
阅读全文