深度解析数据清理和特征工程!5本面向数据科学家的顶级书籍推荐 ⛵
💡 作者:韩信子@ShowMeAI
📘 数据分析实战系列:https://www.showmeai.tech/tutorials/40
📘 机器学习实战系列:https://www.showmeai.tech/tutorials/41
📘 本文地址:https://www.showmeai.tech/article-detail/403
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容
💡 引言
数据清理和特征工程是数据科学家和机器学习工程师们一天中最重要的部分之一,几乎我们每天都会和数据打交道,接触到这些数据工作。能够有效地清理数据获取干净核心的数据将保证后续工作有更好的结果。
关于数据清理和特征工程,欢迎大家阅读和学习ShowMeAI在📘[机器学习实战:手把手教你玩转机器学习系列]中对应的文章:
在本篇内容中,ShowMeAI对市面上以数据清洗和特征工程为主题的书籍进行梳理比对,找出最值得推荐的5本书,给大家做一个系统的介绍。获取方式见评论区~
🏆 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击 这里 获取本文 [38]好书推荐!数据清理和特征工程的5本必读书籍(附下载) 『电子书合集』
⭐ ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub
💡 1. Bad Data/坏(脏)数据
第1本推荐书是 📘Bad Data Handbook: Cleaning Up The Data So You Can Get Back to Work,这本书是 19 位机器学习从业者的论文与资料集,汇总了关于数据准备和管理的实用知识与技巧。
💦 书籍简介
什么是坏数据? 学术角度可能认为它是如缺失值或格式错误的记录,但实际问题中的坏数据包括更多类型。在这本手册中,数据专家 Q. Ethan McCallum与来自数据领域的 19 位同事,讲解了他们是如何处理棘手的数据问题的。
包含下列主题:
- 初探数据,看看它是否合适进行后续分析
- 将电子表格数据转换成可用的形式
- 处理文本数据中的编码问题
- 开发网络爬虫与数据抓取工作
- 使用 NLP 工具揭示社交平台评论背后的情绪情感
- 避免造成数据分析问题的政策
- 数据质量分析的系统方法
💦 书籍目录
- 第 01 章: 什么是不良数据?
- 第 02 章: 这只是我的问题,还是这些数据听起来很有趣?
- 第 03 章: 数据供人类消费,而非机器消费
- 第 04 章: 隐藏在文本中的不良数据
- 第 05 章:清洗与组织 Web 数据
- 第 06 章: 在相互矛盾的在线评论中发现说谎者和困惑者
- 第 07 章: 不良数据请站出来?
- 第 08 章: 辛苦繁杂的细碎工作
- 第 09 章: 当数据与现实不匹配时
- 第 10 章: 偏见和错误
- 第 11 章: 不要让完美成为优秀的敌人:糟糕的数据真的很糟糕吗?
- 第 12 章: 当数据库受到攻击时
- 第 13 章 :图与网络数据
- 第 14 章: 云计算的神话
- 第 15 章: 数据科学的危险面
- 第 16 章: 如何照顾你的机器学习专家
- 第 17 章: 数据溯源
- 第 18 章: 社交媒体
- 第 19 章: 数据质量分析揭秘:了解数据何时足够好
💡 2. Data Wrangling with Python/使用Python进行数据整理
第2本推荐书是 📘Data Wrangling with Python: Tips and Tools to Make Your Life Easier,这本书的重点是帮助我们将原始数据转化为适用于建模的数据形式的工具和方法。
💦 书籍简介
数据整理是一个通用术语,包括数据清理和特征工程工作。这本书以实用的方式了解有关数据整理的更多信息。通过各种循序渐进的练习,我们可以学习如何有效地获取、清理、分析和呈现数据。也包括自动化数据处理、安排文件编辑和清理任务、处理更大的数据集以及使用您获得的数据创建引人入胜的知识。书籍的主题覆盖:
- 基本的 Python 语法、数据类型和语言概念
- 处理机器可读和人类可理解的数据
- 抓取网站和网络数据以找到大量有用的信息
- 清理和格式化数据以消除数据集中的重复项和错误
- 标准化数据以及测试和编写数据清理脚本
- 使用新的 Python 库和技术探索和分析数据集
💦 书籍目录
- 第 01 章:Python 简介
- 第 02 章:Python 基础知识
- 第 03 章:机器读取的数据
- 第 04 章:使用 Excel 文件
- 第 05 章:PDF 和 Python 中的问题解决
- 第 06 章:获取和存储数据
- 第 07 章:数据清理:调查、匹配和格式化
- 第 08 章:数据清理:标准化和脚本化
- 第 09 章:数据探索与分析
- 第 10 章:展示你的数据
- 第 11 章:Web 抓取:从 Web 获取和存储数据
- 第 12 章:高级网页抓取:屏幕抓取器和蜘蛛
- 第 13 章:API
- 第 14 章:自动化和扩展
- 第 15 章:结论
💡 3. Feature Engineering and Selection/特征工程与选择
第3本推荐的书是 📘A Short Guide for Feature Engineering and Feature Selection(撰写的特征工程和选择:预测模型的实用方法)。这本书描述了为建模准备原始数据作为特征工程的一般过程。
💦 书籍简介
开发预测模型的过程包括许多阶段,除了建模算法,还有很多数据和特征方面的工作。这本书介绍了为建模寻找预测变量的最佳表示以及为改进模型性能寻找预测变量的最佳特征子集的技术。书籍的主语言是R,但即使 R 不是您的主要语言,也不影响对里面的核心技术方法的学习和应用。
💦 书籍目录
- 第 1 章:简介
- 第 2 章:示例:预测缺血性中风的风险
- 第 3 章:预测建模过程回顾
- 第 4 章:探索性可视化
- 第 5 章:编码分类预测变量
- 第 6 章:工程数值预测器
- 第 7 章:检测交互作用
- 第 8 章:处理缺失数据
- 第 9 章:使用配置文件数据
- 第 10 章:特征选择概述
- 第 11 章:贪心搜索方法
- 第 12 章:全局搜索方法
💡 4. Python Feature Engineering Cookbook/Python特征工程大全
第4本推荐书是 📘Python Feature Engineering Cookbook:超过 70 个用于创建、工程和转换特征以构建机器学习模型。
随书完整资料代码可在官方github获取
- 📘 https://github.com/PacktPublishing/Python-Feature-Engineering-Cookbook
- 📘 https://github.com/PacktPublishing/Python-Feature-Engineering-Cookbook-Second-Edition
💦 书籍简介
特征工程,是一个数据转换和创建特征的过程,对于机器学习模型构建的效果至关重要。这本书展开讲解了如何使用开源 Python 库来加速完成特征工程的过程。
本书讲解的内容:首先解决基本数据问题,例如缺失数据和分类值,然后再介绍处理偏态分布和异常值的策略,最后讲解如何从各种类型的数据(包括文本、时间序列和关系数据库)中开发新特征。讲解众多开源 Python 库,帮助我们高效、可重现和优雅的方式实施每个特征工程方法。这本书覆盖特征工程所需的工具和专业知识,掌握后可以熟练地构建可部署到生产环境中的端到端和可重现的特征工程管道。
本书适用于机器学习和数据科学专业的学生和专业人员,以及从事机器学习模型部署的软件工程师,帮助他们了解更多有关如何转换数据和创建新功能以更好地训练机器学习模型的信息。
💦 书籍目录
- 第 1 章:缺失值估算与填充
- 第 2 章:编码分类变量
- 第 3 章:转换数值变量
- 第 4 章:执行变量离散化
- 第 5 章:处理异常值
- 第 6 章:从日期和时间中提取特征
- 第 7 章:执行特征缩放
- 第 8 章:创建新特征
- 第 9 章:使用 Featuretools 从关系数据中提取特征
- 第 10 章:使用 tsfresh 从时间序列创建特征
- 第 11 章:从文本变量中提取特征
💡 5. Feature Engineering for Machine Learning/机器学习中的特征工程
推荐的第5本书是 📘Feature Engineering for Machine Learning(机器学习中的特征工程)。
💦 书籍简介
这本书详细讲解了将特征(原始数据的数字表示)提取和转换为机器学习模型格式的技术。每章都会以实际数据问题为例讲解,例如如何表示文本或图像数据。
作者 Alice Zheng 和 Amanda Casari 并没有简单地教授理论知识,而是通过贯穿全书的练习加强实战应用与落地。书籍最后一章通过使用多种特征工程技术处理真实世界的结构化数据集,将所有内容整合在一起。书籍的配套代码覆盖包括 NumPy、Pandas、Scikit-learn 和 Matplotlib 在内的 Python 工具包使用。
书籍覆盖如下内容主题:
- 数值数据的特征工程:过滤、分箱、缩放、对数变换和幂变换
- 自然语言文本技术:词袋、n-gram 和短语检测
- 基于频率的过滤和特征缩放,用于消除无信息特征
- 分类变量的编码技术,包括特征hash和分箱计数
- 具有主成分分析的基于模型的特征工程
- 模型堆叠的概念,使用 k-means 作为特征化技术
- 使用手动和深度学习技术提取图像特征
💦 书籍目录
- 第 1 章:机器学习管道
- 第 2 章:数值处理的花式技巧
- 第 3 章:文本数据:扁平化、过滤和分块
- 第 4 章:特征缩放的影响:从词袋到 Tf-Idf
- 第 5 章:分类变量:编码映射及计数
- 第 6 章:降维:使用 PCA 压缩数据
- 第 7 章:通过 K-Means 模型堆叠进行非线性特征构建
- 第 8 章:自动化 Featurizer:图像特征提取和深度学习
- 第 9 章:回到未来:构建学术论文推荐系统
参考资料
- 📘 Bad Data Handbook: Cleaning Up The Data So You Can Get Back to Work
- 📘 Data Wrangling with Python: Tips and Tools to Make Your Life Easier
- 📘 A Short Guide for Feature Engineering and Feature Selection(撰写的特征工程和选择:预测模型的实用方法)
- 📘 Python Feature Engineering Cookbook:超过 70 个用于创建、工程和转换特征以构建机器学习模型
- 📘 Feature Engineering for Machine Learning(机器学习中的特征工程)
推荐阅读
- 🌍 数据分析实战系列 :https://www.showmeai.tech/tutorials/40
- 🌍 机器学习数据分析实战系列:https://www.showmeai.tech/tutorials/41
- 🌍 深度学习数据分析实战系列:https://www.showmeai.tech/tutorials/42
- 🌍 TensorFlow数据分析实战系列:https://www.showmeai.tech/tutorials/43
- 🌍 PyTorch数据分析实战系列:https://www.showmeai.tech/tutorials/44
- 🌍 NLP实战数据分析实战系列:https://www.showmeai.tech/tutorials/45
- 🌍 CV实战数据分析实战系列:https://www.showmeai.tech/tutorials/46
- 🌍 AI 面试题库系列:https://www.showmeai.tech/tutorials/48