摘要:
特征选择(1) 在sklearn.feature_selection模块中,可以对样本集进行特征选择(feature selection)和降维(dimensionality reduction),这样会提高估计器的准确度或者增强在高维数据集上的性能。 1. 移除低方差特征 VarianceThre 阅读全文
摘要:
分层/多级索引能在较低纬度的数据结构(如Series和DataFrame)中存储和操作任意维度的数据, 1. 创建MultiIndex MultiIndex对象是标准索引Index对象的扩展,可以将MultiIndex看作一个元组数组,其中每个元组都是唯一的。可以从数组列表(MultiIndex.f 阅读全文
摘要:
集成学习 随机森林 AdaBoost 算法 提升树 梯度提升树(GBDT) XGBoost 一、提升树 提升树是以 $CART$ 回归树为基本分类器的提升方法。 提升方法采用加法模型(即基函数的线性组合)与前向分步算法。 1. 提升树模型 提升树模型可以表示为决策树的加法模型: $$ \tag{13 阅读全文
摘要:
字符串的合并,主要有4种方法: 1. 使用“+”组合字符串 例如:输入x='a'+'b'得到x的值是‘ab’。 2. 使用%占位符组合字符串 例如:输入x='I am %s'%'Tony',得到x的值是‘I am Tony’。 3. 使用.join方法将多个可迭代对象合并 例如:输入x=' '.jo 阅读全文
摘要:
用途 pandas.cut用来把一组数据分割成离散的区间。比如一组年龄数据,pandas.cut将年龄分割成不同的年龄段并打上标签。 原型 pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3,include_ 阅读全文
摘要:
问题 怎么实现一个键对应多个值的字典(也叫 multidict )? 解决方案 字典中一个键对应一个单值的映射。如果想一个键映射多个值,就需要将多个值放到另外的容器中。比如列表、集合等。 d = { 'a' : [1, 2, 3], 'b' : [4, 5] } e = { 'a' : {1, 2, 阅读全文
摘要:
用法一: groupby()函数扫描整个序列并且查找连续相同值(或根据指定 key 函数返回值相同)的元素序列。 每次迭代,返回一个值和一个迭代器对象。 from operator import itemgetter from itertools import groupby rows = [ {' 阅读全文
摘要:
案例完整代码、数据见Github 1. 案例背景 用户价值细分是了解用户价值度的重要途径,常用的细分模型包括:基于属性的方法、ABC分类法、聚类法等。 1. 基于属性的方法 常用的细分属性包括:地域、产品类别、用户类别(大客户、普通客户、VIP客户等)、性别、消费等级等。这种细分方法可根据数据库中数 阅读全文
摘要:
完整代码、数据见Github 1. 案例背景 会员部门在做会员营销时,希望通过数据预测下一次营销活动时,响应活动的会员名单和具体概率。 数据: order.xlsx表: sheet1为训练集,sheet2为预测集 特征变量数:13 数据条数:训练集39999条,预测集8843条 NA值:有 异常值: 阅读全文
摘要:
所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这种情况。 小数据分布不均 阅读全文