NOTE FOR <商业数据科学--数据价值与机器学习实战> 张诚 张琦 著
2021.7.21 第一章 大数据及其应用
2021.7.22 第二章 分类算法
2.1 机器学习
- Weka是现金最完备的机器学习开源工具之一 : 标准需求可以用标准产品解决,非标准需求则需要开发定制化软件
- R : 功能由志愿者提供,不能保证其提供算法的正确性; R采用读入内存处理数据的简单方式,不能很快好处理大规模数据
- 非技术的公司 weka+excel
- 技术公司 python+R+mysql(mango)+云服务商
- 机器学习是一种数据分析的方式,而深度学习是机器学习的一种方法
- 如何把一个实际问题还原成决策树(或别的算法对应问题),这从商业角度理解机器学习最核心的要点
- 机器学习的四个基本型: 分类 聚类 网络 关联规则
2.2 两种思考模式 演绎和归纳
- 演绎: 根据经验和认知判断具体时间的发展情况
- 归纳: 总结所有情况,让数据和事实告诉我们答案
2.3 分类算法的应用
- 对抗性神经网络(GAN)
生成模型(功方)类似于一群货币造假者.而判别模型(守方)类似于警察,他们会去检查假币.这两者进行竞技的过程使得造假者不断提高造假技术,同时警察不断提高侦察假币的技术.这个过程不断循环,直到警察无法辨认出假币而结束. - 思考比算法本身更重要
- 无论中文还是英文,现在语言处理的方法都是按树处理
- 树适合找规律,网络适合找点与点之间的关系
自然语言处理
- 语音的本质是初中物理的波,而波的特征可以按树的规则存储.学习语音就是要学会描述波动的规律.
- 不断叠加基本的线条,就可以调制出波的形状
- 如果用叠加的方式来考虑,神经网络适合于通过叠加来表示多元多次的关系,因而也可以用来学习声音.
2.5 总结:机器看世界
1.凡是要找事物发生的概率或者个体间差别的都可以用树,比如用户会不会流失,故事明日涨跌幅度等
2.如果不想找规律,而是寻找一群人的群体特征或者相似性,那就是聚类,聚类问题往往会在第一步产生
3.要研究事物之间的关系,而不在于自身的特性--可以选择PageRank之类挖掘网络关系的算法
还有一种就是在某些特定情况下建立了关系--关联分析
找出了用户流失的规律就要进行干预,一方面可以发放优惠券,另一方面还应该看看这些人群的特征.这一点在商业中的应用包括用户画像和精准定位等,营销种也成为用户细分或用户定位.
我们可以用树去预测销量的波动.树其实并不受限于目标变量的连续性,它的目标时看这个问题有无规律(也就是发生的概率)
决策树
信息熵:指的是获得更多信息的价值在于在多大程度上会降低决策的不确定性.
信息增益:衡量的是消减信息熵的程度,用前后两次的不确定结果相减,值越大就越说明这条规则价值越大.
想用一棵树来刻画规则,自然就会产生三个问题:
- 从哪个属性开始分割?--把信息增益最大的属性选择为根节点
- 根节点后续选择哪些属性?--根据信息增益的结果来确定
- 当这棵树满足什么条件时可以停止?当信息增益为0时,停止树的生长
借助信息熵只是构建决策树的一种思路,称为C4.5/C5.0算法. 还有基尼系数,卡方检验等方法构建决策树的思路
最需要做的是两点:
- 理解计算机是如何根据三个简单的计算规则完成决策树的构建
- 体会如何把更多的管理决策问题转化为树
2.7 生存分析
- 分析不是确定流失与否,而是把流失转换为用户能留存多久的问题--生存分析
- 能用逻辑分析做的都可以用回归分析来做,甚至生存分析能做到逻辑回归做不到的事情(二者得到结果并不相同,生存分析解释的是哪些因素影响了它活的时间更久还是更短.如果商业中不想判断哪些用户一定流失,而是想判断他们会留存多久,即实施生命周期管理,那么生存分析更为合适)