AI人工智能—-机器学习怎么做Day4
一、机器学习怎么做
机器学习的基础是数据库;
机器学习需要数据管理、操作的能力;
1、明确数据分析目标
i.思考:
经营活动中有哪些困惑?
做营销那个使用,将来客户是否为流失,可能还有欺诈问题;
ii.案例分析:
用户换机,移动信号2、3G转4G离网率上升等。
iii.机器学习重要步骤
明确数据分析目标是机器学习首要的重要步骤,这个步骤需要域用户进行充分的沟通。
项目主体:中国移动客户细分模型。
项目范围:本期项目以乐山市为试点城市,移动网2-3千万人收集用户。
项目目的:按用户行为进行细分,客户反映用户需求。通过对各类人群的深入分析(了解用户偏好,涉及不同的营销方案),为相关部分制定资费、服务、时长、策略提供基础。
项目内容:
建立客户细分模型
结合各部门需求对客户细分群进行详细分析。
协助时长经营部进行相关服务、时长活动的策划。
2、数据收集(高质量数据)
收集相关数据(内部业务系统的数据、外部数据)
数据分类:
结构化,sql语言;
非结构化,hbase;
外部数据可以通过网路爬虫、购买或交易方式获得。
社交网络数据
论坛数据
充足、全面的高质量数据是机器学习的基础。
数据预处理:机器学习对数据的噪声处理非常非常高;
3、数据预处理
思考:数据质量满足机器学习的要求吗?
数据可能存在噪声、不一致、异常、个人隐私保护等各类问题;
个人隐私数据
数据清理
为保证数据的质量,必要的数据治理是需要的。
统计学,噪声判别,假设检验,
4、数据建模
思考:用户换机模型
算法本身没有绝对的好坏,不同的机器学习算法都有各自的适用范围;
例如:每个算法适用范围不同,问题选择算法
用户的流失:分类算法;
weibo推荐好友:计算距离,标签标识喜好,聚类算法;
神经网络算法:优选数据是数值型输入和输出;
选择合适的建模防范或算法,算法的好坏需要时间比较确认;
机器学习的核心部分
使用精巧复杂的分析方法是数据中提取知识,包括选择建模技术、生成测试设计以及构建和评估模型;
算法调优
例如:
前馈网络:手写体识别、银行信贷是否欠款。
参数或结构方面:
调参做优化处理;
结构没法预先确认;
机器学习算法是科学,应用是艺术。
应用:表现很强的技术或技巧去实现;
算法选择:同一个人,不用的场景,算法不同(比赛同学都有各自的方法实现,多样化表现艺术性);
分类使用多种算法,多种算法进行投票,多次实验;
5、效果评估
思考:用户换机模型效果评估?
评估方法:欠拟合和过拟合。
问题:哪个曲线更合适,评估哪个模型更好?
数据拆分2-3份:训练集和测试集;
一般出现训练数据比较契合,测试时匹配度较差;
检测:通过检验样本数据,切合样本数据规律,该算法就适合;
回归分析:研究定量的标量之间的关系,回归方程近似的分布在线性轴的四周,观察多拟合的误差函数、代价函数,评估哪个函数质量更好,更接近线性轴;
不是把所有数据进行分析:拆分两份数据,一份是训练集,另一份测试机;
一般有过拟合的问题产生;
同一个模型不同参数,性能会有不同,评估标准切合实际问题,更好的解决问题;
例如:预测银行客户是否会有欺诈行为(递增式学习,反复迭代过程);
预测准确率更高;
贴切真是数据的规律,或者说是贴近已经发生的历史欺诈数据,贴近历史样本数据,就认为该算法为合理算法;