06 2020 档案
摘要:问题 怎么实现一个键对应多个值的字典(也叫 multidict )? 解决方案 字典中一个键对应一个单值的映射。如果想一个键映射多个值,就需要将多个值放到另外的容器中。比如列表、集合等。 d = { 'a' : [1, 2, 3], 'b' : [4, 5] } e = { 'a' : {1, 2,
阅读全文
摘要:用法一: groupby()函数扫描整个序列并且查找连续相同值(或根据指定 key 函数返回值相同)的元素序列。 每次迭代,返回一个值和一个迭代器对象。 from operator import itemgetter from itertools import groupby rows = [ {'
阅读全文
摘要:案例完整代码、数据见Github 1. 案例背景 用户价值细分是了解用户价值度的重要途径,常用的细分模型包括:基于属性的方法、ABC分类法、聚类法等。 1. 基于属性的方法 常用的细分属性包括:地域、产品类别、用户类别(大客户、普通客户、VIP客户等)、性别、消费等级等。这种细分方法可根据数据库中数
阅读全文
摘要:完整代码、数据见Github 1. 案例背景 会员部门在做会员营销时,希望通过数据预测下一次营销活动时,响应活动的会员名单和具体概率。 数据: order.xlsx表: sheet1为训练集,sheet2为预测集 特征变量数:13 数据条数:训练集39999条,预测集8843条 NA值:有 异常值:
阅读全文
摘要:所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这种情况。 小数据分布不均
阅读全文
摘要:集成学习 Bagging 与随机森林 Boosting 与 AdaBoost 算法 提升树 梯度提升树(GBDT) XGBoost 目录一、XGBoost 简介二、XGBoost 原理1. 从目标函数开始,生成一棵树1.1 学习第 t 颗树1.2 XGBoost 的目标函数1.3 泰勒公式展开1.4
阅读全文