摘要:
1>模型是用历史数据预测未来,必然要求场景/产品/客群在时间上相对稳定,历史规律才有可能适应未来的客群,所以要明确模型的应用场景. 2>好坏客户的确定: 坏客户确定方法: 滚动率以及迁徙率 号客户确定方法: 账龄分析 3>确认需求 做什么? 适用于什么产品? 适用于什么客群? 应用于什么场景? 为什 阅读全文
摘要:
RDD 分布式计算需要: 分区控制 Shuffle控制 数据存储\序列化\发送 数据计算API 等一系列功能 这些功能, 不能简单的通过python内置的本地集合对象(如List\字典等)去完成, 我们在分布式框架中, 需要有一个统一的数据抽象对象, 来实现上述分布式计算所需要功能, 这个抽象对象, 阅读全文
摘要:
xgboos: 极限梯度提升算法 阅读全文
摘要:
概率分类器: 朴素贝叶斯是一种直接衡量标签和特征质检的概率关系的有监督学习算法, 是一种专注分类的算法, 朴素贝叶斯的算法根源是基于概率论和数理统计的贝叶斯理论, 因此它是根正苗红的概率模型. 关键概念: 联合概率: X取值为x和Y的取值为y, 两个事件同时发生的概率, 表示为: P(X=x, Y= 阅读全文
摘要:
回归是一种应用广泛的预测建模技术, 这种技术的核心在于预测的结果是连续型变量 通常理解线性代数可以有两种角度:矩阵的角度喝代数的角度, 几乎所有的机器学习的教材都是从线性代数角度来理解线性回归, 类似于逻辑回归喝支持向量机, 将求解参数的问题转化为一个带条件的最优化问题, 然后用三维图像让大家求极值 阅读全文
摘要:
参数C的进阶 支持向量机分类器, 是在数据空间中找出一个超平面作为决策边界, 利用这个决策边界来对数据进行分类, 并使分类误差尽量小的模型. 所以软间隔让决定两条虚线超平面向量可鞥来自于同一个类别的样本点, 而硬间隔的时候两条虚线超平面比速是由两个不同类别的支持向量决定 二分类SVC中样本不均衡问题 阅读全文
摘要:
支持向量机, 它源于统计学习理论, 是除了集成算法之外, 接触的第一个强学习器 功能 有监督学习 线性二分类与多分类(Linear Support Vector Classification) 非线性二分类与多分类(Support Vector Classification, SVC) 普通连续型变 阅读全文
摘要:
无监督学习-聚类算法 聚类算法有焦作"无监督分类", 其目的是将数据阿虎分成有意义或有用的组(簇). 聚类 分类 核心 将数据分成多个组, 探索每个组的数据是否有联系 从已经分组的数据中取学习, 把新数据放到已经分好的组中去 学习类型 无监督, 无需标签进行训练 有监督, 需要标签进行训练 典型算法 阅读全文
摘要:
回归的分类器 是一种名为"回归"的线性分类器, 其本质是由线性回归变化而来的. Z = θ0 + θ1x1 + θ2x2 +...+ θnxn 其中: θ被统称为模型的参数, θ0 被称为截距, θ1 ~ θn 被称为系数, 我们可以将系数和自变量用矩阵来表示 线性回归的任务, 就是构造一个预测函数 阅读全文
摘要:
维度: 对于数组和Series来说, 维度就是功能shape返回得结果, shape中返回几个数字, 就是几维 数组中每一张表, 都可以是一个特征矩阵干活一个DataFrame, 针对每一张表, 维度指得是样本得数量或特征的数量, 一般无特别说明, 指的是特征得数量. 对于图像来说, 维度就是图像中 阅读全文