摘要: 一、采样 1、随机采样 随机从样本中抽取特定数量的样本,取完放回再取叫放回采样,取完不放回叫无放回采样。 2、系统采样 一般采样无放回采样,将数据样本按一定规则分为n等份,再从每等份随机抽取m个样本 3、分层采样 将数据分为若干个类别,每层抽取一定量的样本,再将样本组合起来 二、归一化 是指将数据经 阅读全文
posted @ 2018-12-07 16:42 Small_office 阅读(902) 评论(1) 推荐(0) 编辑
摘要: 一、数据探查 1、数据量大小,足够的数据对学习效果有直接影响; 2、数据缺失或乱码,缺失和乱码影响数据质量,这种情况多的话需要进行数据清洗; 3、字段类型,不同算法对数据类型要求不一致,必要时需要进行转换; 4、是否含有目标队列,决定采用监督或无监督算法,若无目标队列可以考虑用ETL(抽取(extr 阅读全文
posted @ 2018-12-07 10:13 Small_office 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 一、六个步骤 1、场景解析,即进行业务场景抽象,匹配业务和算法; 2、数据预处理,即进行数据清洗,对数据进行拆分,采样,去噪等,也可以进行数据归一化或标准化; 3、特征工程,即提取数据特征; 4、模型训练,通过算法进行训练,并生成模型; 5、模型评估,评估模型成熟度; 6、服务,根据每天数据生成新模 阅读全文
posted @ 2018-12-07 09:41 Small_office 阅读(147) 评论(0) 推荐(0) 编辑