摘要: PMML,全称为 Predictive Model Markup Language,是一种标准化的模型描述和交换格式。它允许从不同的数据挖掘和机器学习软件中导出模型,并在其他系统中进行部署,无需重新编写代码。PMML 通过定义一套统一的规则来描述模型,包括数据预处理、模型参数以及输入输出格式等。目前 阅读全文
posted @ 2024-04-21 23:37 AKA栗子 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 缘起:TABLESAMPLE 的非随机性 最近需要实现一段 Spark SQL 逻辑,对数据集进行抽样指定的行数,才发现直接使用​​TABLESAMPLE​​函数抽样指定行数的方法其实是非随机的。 由于数据集较大,刚开始的逻辑是,取窗口函数随机排序后 row_number 的前 n 行。但运行速度较 阅读全文
posted @ 2024-04-21 23:30 AKA栗子 阅读(971) 评论(0) 推荐(0) 编辑
摘要: 在机器学习的生产环境中,我们经常需要将多个模型的预测结果进行融合,以便提高预测的准确性。这个过程通常涉及到多个模型子分的简单逻辑回归融合。虽然离线训练时我们可以直接使用sklearn的逻辑回归进行训练和调参,但在生产环境中,模型的上线往往需要使用PMML(Predictive Model Marku 阅读全文
posted @ 2024-03-12 18:19 AKA栗子 阅读(350) 评论(0) 推荐(0) 编辑
摘要: KS,AUC 和 PSI 是风控算法中最常计算的几个指标,本文记录了多种工具计算这些指标的方法。 生成本文的测试数据: import pandas as pd import numpy as np import pyspark.sql.functions as F from pyspark.sql. 阅读全文
posted @ 2021-12-14 16:21 AKA栗子 阅读(3714) 评论(0) 推荐(1) 编辑
摘要: 《个人信息保护法》8月20日通过,11月1日开始实施,app随意爬取用户信息的日子到头了 阅读全文
posted @ 2021-08-26 02:15 AKA栗子 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 本篇主要记录 Applescript 基础语法,以及利用 applescript 生成 omnifocus 每日报告 从 windows 转换到 macos,最近一直在不断折腾,这两天浏览 github 过程中,看到 omnifocus 可以搭配 applescript 开发出一些自动化脚本,因此想 阅读全文
posted @ 2021-08-25 01:34 AKA栗子 阅读(642) 评论(0) 推荐(0) 编辑
摘要: 一、变量分箱 变量分箱常见于逻辑回归评分卡的制作中,在入模前,需要对原始变量值通过分箱映射成woe值。举例来说,如“年龄”这一变量,我们需要找到合适的切分点,将连续的年龄打散到不同的”箱“中,并按年龄落入的“箱”对变量进行编码。 关于变量分箱的作用,相关资料中的解释有很多,我认为变量分箱最主要有三个 阅读全文
posted @ 2021-08-19 21:56 AKA栗子 阅读(5934) 评论(1) 推荐(1) 编辑