AI人工智能—-机器学习怎么做Day4

一、机器学习怎么做

机器学习的基础是数据库;

机器学习需要数据管理、操作的能力;

1、明确数据分析目标

i.思考:

经营活动中有哪些困惑?

做营销那个使用,将来客户是否为流失,可能还有欺诈问题;

ii.案例分析:

用户换机,移动信号2、3G转4G离网率上升等。

iii.机器学习重要步骤

明确数据分析目标是机器学习首要的重要步骤,这个步骤需要域用户进行充分的沟通。

项目主体:中国移动客户细分模型

项目范围:本期项目以乐山市为试点城市,移动网2-3千万人收集用户。

项目目的:用户行为进行细分,客户反映用户需求。通过对各类人群的深入分析(了解用户偏好,涉及不同的营销方案),为相关部分制定资费、服务、时长、策略提供基础。

项目内容:

建立客户细分模型

结合各部门需求对客户细分群进行详细分析。

协助时长经营部进行相关服务、时长活动的策划。

2、数据收集(高质量数据

收集相关数据(内部业务系统的数据、外部数据)

数据分类:

结构化,sql语言;

非结构化,hbase;

外部数据可以通过网路爬虫、购买或交易方式获得。

社交网络数据

论坛数据

充足、全面的高质量数据是机器学习的基础。

数据预处理:机器学习对数据的噪声处理非常非常高;

3、数据预处理

思考:数据质量满足机器学习的要求吗?

数据可能存在噪声、不一致、异常、个人隐私保护等各类问题;

个人隐私数据

数据清理

为保证数据的质量,必要的数据治理是需要的。

统计学,噪声判别,假设检验,

4、数据建模

思考:用户换机模型

算法本身没有绝对的好坏,不同的机器学习算法都有各自的适用范围

例如:每个算法适用范围不同,问题选择算法

  用户的流失:分类算法

  weibo推荐好友:计算距离,标签标识喜好,聚类算法

  神经网络算法:优选数据是数值型输入和输出;

选择合适的建模防范或算法,算法的好坏需要时间比较确认;

机器学习的核心部分

使用精巧复杂的分析方法是数据中提取知识,包括选择建模技术生成测试设计以及构建和评估模型

算法调优

例如:

前馈网络:手写体识别、银行信贷是否欠款。

参数或结构方面:

调参做优化处理;

结构没法预先确认;

机器学习算法是科学,应用是艺术。

应用:表现很强的技术或技巧去实现;

算法选择:同一个人,不用的场景,算法不同(比赛同学都有各自的方法实现,多样化表现艺术性);

分类使用多种算法,多种算法进行投票,多次实验;

5、效果评估

思考:用户换机模型效果评估?

评估方法:欠拟合和过拟合。

问题:哪个曲线更合适,评估哪个模型更好?

数据拆分2-3份:训练集和测试集;

一般出现训练数据比较契合,测试时匹配度较差;

检测:通过检验样本数据,切合样本数据规律,该算法就适合;

回归分析:研究定量的标量之间的关系,回归方程近似的分布在线性轴的四周,观察多拟合的误差函数、代价函数,评估哪个函数质量更好,更接近线性轴;

不是把所有数据进行分析:拆分两份数据,一份是训练集,另一份测试机;

一般有过拟合的问题产生;

同一个模型不同参数,性能会有不同,评估标准切合实际问题,更好的解决问题;

例如:预测银行客户是否会有欺诈行为(递增式学习,反复迭代过程);

预测准确率更高;

贴切真是数据的规律,或者说是贴近已经发生的历史欺诈数据,贴近历史样本数据,就认为该算法为合理算法;

posted on 2024-11-22 09:03  gkhost  阅读(2)  评论(0编辑  收藏  举报

导航