随笔档案「2021年12月」 - cup_leo

hive 使用spark引擎 hive -e

摘要：#!/bin/bash #spark参数按照实际情况配置 hive -e " SET mapreduce.job.queuename=batch; set hive.execution.engine=spark; set spark.executor.memory=4g; set spark.exe 阅读全文

posted @ 2021-12-29 09:39 cup_leo 阅读(602) 评论(0) 推荐(0)

hive to mysql hive数据导入mysql

摘要：date=`date -d "-1 day" +%F` spark-submit \ --name "suanfa_zjk_tyc_tjy_export" \ --master yarn \ --deploy-mode cluster \ --driver-memory 3G \ --executo 阅读全文

posted @ 2021-12-15 14:28 cup_leo 阅读(31) 评论(0) 推荐(0)

机器学习优化思考

摘要：1、机器学习中模型优化不得不思考的几个问题 - 云+社区 - 腾讯云 (tencent.com) 2、机器学习模型应该如何调优？这里有三大改进策略 (thepaper.cn) 3、机器学习模型的超参数优化 (baidu.com) 阅读全文

posted @ 2021-12-10 17:57 cup_leo 阅读(38) 评论(0) 推荐(0)

特征工程 python 批量生成变量名

摘要：features = [] diff_windowns = [1,3,6,12] groups = ['sum','mean','std','max','min','count'] for d in diff_windowns: exec("""last_{}_month = df[df['diff 阅读全文

posted @ 2021-12-10 11:42 cup_leo 阅读(493) 评论(0) 推荐(0)

spark 性能调优基础篇和高级篇转自美团技术团队

摘要：Spark性能优化指南——基础篇 - 美团技术团队 (meituan.com) Spark性能优化指南——高级篇 - 美团技术团队 (meituan.com) 阅读全文

posted @ 2021-12-09 17:05 cup_leo 阅读(134) 评论(0) 推荐(0)

密度聚类多个集合求交集汇总 python

摘要：#定义合并函数：将有共同核心点的临时聚类簇合并 test_list_set = [{1,2,3},{3,4,5},{10,12,13},{4,5,8},{13,15},{7,8},{20,22}] result = [] for index, t0 in enumerate(test_list_se 阅读全文

posted @ 2021-12-08 16:28 cup_leo 阅读(89) 评论(0) 推荐(0)

最近邻查询优化方法相似度度量

摘要：1. 基本原理其实，这种问题本来是很容易解决的，只要设计好了数据相似度的度量方法（有关相似度量的方法详细可参考我之前的博客：数据相似性的度量方法总结）计算所有数据与查询的距离，比较大小即可。但是随着数据量的增大以及数据维度的提高，这种方法就很难在现实中应用了，因为效率会非常低。解决此类问题的思路基本阅读全文

posted @ 2021-12-08 11:35 cup_leo 阅读(95) 评论(0) 推荐(0)

pyspark SQL 基础入门资料

摘要：1、(45条消息) PySpark SQL常用语法_baidu_26454813的博客-CSDN博客_pyspark sql 2、spark dataframe新增一列的四种方法： spark dataframe新增一列的四种方法【附源码】_香山上的麻雀_51CTO博客 3、Spark Repart 阅读全文

posted @ 2021-12-07 14:39 cup_leo 阅读(244) 评论(0) 推荐(0)

如何利用Python编程执行Spark

摘要：Apache Spark是一个对开发者提供完备的库和API的集群计算系统，并且支持多种语言，包括Java，Python，R和Scala。SparkSQL相当于Apache Spark的一个模块，在DataFrame API的帮助下可用来处理非结构化数据。通过名为PySpark的Spark Pyth 阅读全文

posted @ 2021-12-07 11:08 cup_leo 阅读(991) 评论(0) 推荐(0)

cup_leo

12 2021 档案

公告