摘要: PMML,全称为 Predictive Model Markup Language,是一种标准化的模型描述和交换格式。它允许从不同的数据挖掘和机器学习软件中导出模型,并在其他系统中进行部署,无需重新编写代码。PMML 通过定义一套统一的规则来描述模型,包括数据预处理、模型参数以及输入输出格式等。目前 阅读全文
posted @ 2024-04-21 23:37 AKA栗子 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 缘起:TABLESAMPLE 的非随机性 最近需要实现一段 Spark SQL 逻辑,对数据集进行抽样指定的行数,才发现直接使用​​TABLESAMPLE​​函数抽样指定行数的方法其实是非随机的。 由于数据集较大,刚开始的逻辑是,取窗口函数随机排序后 row_number 的前 n 行。但运行速度较 阅读全文
posted @ 2024-04-21 23:30 AKA栗子 阅读(739) 评论(0) 推荐(0) 编辑