随笔分类 - 数据挖掘
摘要:基于 的用户价值度分析 基于 的营销响应预测 解决数据样本类别分布不均衡问题 数据标准化 交叉验证 数据降维 时间序列模型 特征选择 最小费用最大流问题 异常值处理 缺失值处理 重复值处理 小波变换库 过采样算法
阅读全文
摘要:sklearn中很多回归方法,广义线性回归在linear_model库下,例如:线性回归、、岭回归等。 还有其他非线性回归方法,例如:、集成方法、贝叶斯回归、 近邻回归、决策树回归等。 如何在sklearn中找到所有回归算法? 由于没有一个统一的回归库,无法
阅读全文
摘要:1. 基于特征选择的降维 这种降维方法的好处是,在保留了原有维度特征的基础上进行降维。 例如通过决策树得到的特征规则,可以作为选择用户样本的基础条件,而这些特征规则便是基于输入的维度产生。假如在决策树之前将原有维度表达式(例如PCA的主成分)方法进行转换,那么即使得到了决策树规则,也无法直接应用于业
阅读全文
摘要:时间序列模型(一):模型概述 时间序列模型(二):移动平均法(MA) 时间序列模型(三):指数平滑法 一次移动平均实际上认为近N期数据对未来值影响相同,都加权 1/N;而 N 期以前的数据对未来值没有影响,加权为0。但是,二次及更高次移动平均数的权数却不是 1/N,且次数越高,权数的结构越复杂,但永
阅读全文
摘要:时间序列模型(一):模型概述 时间序列模型(二):移动平均法(MA) 时间序列模型(三):指数平滑 移动平均法可以作为一种数据平滑的方式,以每天的气温数据为例,今天的温度可能与过去的十天的温度有线性关系;或者做的饭一部分是上顿的,一部分是现在的,再假设隔两顿的都被倒掉了,并且每天都是这样的,这就是一
阅读全文
摘要:时间序列模型(一):模型概述 时间序列模型(二):移动平均法(MA) 时间序列模型(三):指数平滑 1. 时间序列的不同分类 时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列。分析时间序列的方法构成数据分析的一个重要领域,即时间序列分析。 时间序列根据研究的依据不同,可有不同的分类。 1.
阅读全文
摘要:时间序列是研究数据随时间变化而变化的一种算法。是一种预测性分析算法。它的基本出发点就是事物发展都有连续性,按照它本身固有的规律进行。 时间序列的常用算法包括移动平均(MA,Moving Average)、指数平滑(ES,Exponential Smoothing)、差分自回归移动平均模型(ARIMA
阅读全文
摘要:1. 分类数据和顺序数据 建模中,很多时候无法直接处理非数值型变量。 例如KMeans算法中基于距离相似度的计算,字符串无法计算距离;再比如Numpy以及基于Numpy的sklearn,虽然这些库允许直接使用和存储字符串型变量,但无法发挥矩阵计算优势。 这些类型的数据可以分为两类: 1. 分类数据:
阅读全文
摘要:数据标准化的目的是使其缩放到相同的数据区间,防止量纲差异对模型的影响。 除了用做模型计算,标准化后的数据还具有直接计算并生成符合指标的意义,是加权指标的必要步骤。 1. 实现中心化和正太分布的Z-Score Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假设原转换数据为x,新数据为
阅读全文
摘要:特征选择(2) 1.选择合适的特征 特征集合有时会很大,在尝试降维之前,有必要用特征工程的方法选择较为重要的特征集合。 最简单的方法就是方差筛选。方差越大的特征,认为特征越重要。方差较小,比如小于1,认为特征可能对算法没什么作用。最极端的,特征方差为0,即所有的样本在该特征的取值都是一样的,那么它对
阅读全文
摘要:案例完整代码、数据见Github 1. 案例背景 用户价值细分是了解用户价值度的重要途径,常用的细分模型包括:基于属性的方法、ABC分类法、聚类法等。 1. 基于属性的方法 常用的细分属性包括:地域、产品类别、用户类别(大客户、普通客户、VIP客户等)、性别、消费等级等。这种细分方法可根据数据库中数
阅读全文
摘要:完整代码、数据见Github 1. 案例背景 会员部门在做会员营销时,希望通过数据预测下一次营销活动时,响应活动的会员名单和具体概率。 数据: order.xlsx表: sheet1为训练集,sheet2为预测集 特征变量数:13 数据条数:训练集39999条,预测集8843条 NA值:有 异常值:
阅读全文
摘要:所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这种情况。 小数据分布不均
阅读全文
摘要:所谓不平衡指的是:不同类别的样本数量差异非常大。 数据规模上可以分为大数据分布不均衡和小数据分布不均衡。大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况。小数据分布不均衡:例如拥有1000条数据样本的数据集中,其中占有10条的少数分类样本便于属于这
阅读全文
摘要:复杂网络中,单源单点的最小费用最大流算法(MCMF)应用广泛。 在实际网络问题中,不仅考虑从 Vs 到 Vt 的流量最大,还要考虑可行流在网络传送过程中的费用问题,这就是网络的最小费用最大流问题。 最小费用最大流问题的一般提法:已知容量网络 D=(V ,A ,C),每条弧 (Vi,Vj) 除了已给出
阅读全文
摘要:来自:https://blog.csdn.net/u010451580/article/details/51178225 遗传算法是模仿生物进化机制的随机全局搜索和优化方法。借鉴达尔文进化论和孟德尔的遗传学说。 相关术语: 基因型(genotype):性状染色体的内部表现; 表现形(phenotyp
阅读全文
摘要:来自:Python数据分析与挖掘实战——张良均著 1. 分析方法与过程 本次建模针对京东商城上“美的”品牌热水器的消费者评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏
阅读全文
摘要:判断重复数据的判断方法:df.duplicated(),该方法中两个主要的参数是subset和keep: subset:要判断重复值的列,可以指定特定列或多个列。默认使用全部列。 keep:当重复时不标记为True的规则,可设置为第一个、最后一个和全部标记为True(False)。默认为第一个,即第
阅读全文
摘要:异常值也称离群点,异常值分析也称离群点分析。 1. 简单统计量分析 最常用的是最大值和最小值,超出合理范围为异常。如客户年龄为199岁,该值为异常。 2. 3σ原则 (1)、如果数据服从正态分布,在3σ原则下,异常值被定义为与平均值偏差超过3倍标准差的值。 在正态分布情况下,距离平均值3α之外的值出
阅读全文
摘要:1. 数据缺失分为两种:行记录缺失,列记录缺失。 2. 不同的数据存储和环境对缺失值的表示也不同。例如:数据库中是Null,Python是None,Pandas或Numpy是NaN。 3. 对缺失值的处理通常4种方法: (1). 丢弃 下面两种场景不宜采用该方法: 不完整数据比例较大,超过10% 缺
阅读全文