摘要: 第3章 特征增强:清洗数据 主要内容: 识别数据中的缺失值; 删除有害数据; 输入(填充)缺失值; 对数据进行归一化/标准化; 构建新特征; 手动或自动选择(移除)特征; 使用数学矩阵计算将数据集转换到不同的维度。 3.1 识别数据中的缺失值 查看数据集中是否有数据点是空的,用pandas data 阅读全文
posted @ 2020-04-09 17:06 hehe哒 阅读(974) 评论(0) 推荐(0) 编辑
摘要: 第2章 特征理解:我们的数据集里有什么? 主要内容: 结构化数据和非结构化数据 定量数据与定性数据 数据的4个等级 探索性数据分析和数据可视化 描述性统计 2.1 数据结构的有无 结构化数据:可以分成观察值和特征数据,一般以表格的形式组织(行是观察值。列是特征)。 非结构化数据:作为自由流动的实体, 阅读全文
posted @ 2020-04-09 14:41 hehe哒 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 第一章 特征工程简介 1.1 激动人心的例子:AI驱动的聊天 请求表示最终用户输入客服聊天框的内容;回复则表示客服对所收到消息的回复。 1.2 特征工程的重要性 准备数据:概念是比较模糊的,包括捕获数据、存储数据、清洗数据等等。清洗数据就是将数据转换为云系统和数据库可以轻松识别的形式。组织数据更为彻 阅读全文
posted @ 2020-04-09 11:21 hehe哒 阅读(554) 评论(0) 推荐(0) 编辑