python数据分析个人学习读书笔记-目录索引

 邀月个人python学习目录索引,已整理完托马兹·卓巴斯的《数据分析实战》的11/11。已整理完阿曼多·凡丹戈的《python数据分析(第2版)》的11/12,第11 章略去。正在整理

 唐宇迪的《跟着迪哥学:Python数据分析与机器学习实战》,已完成18/20

一、《数据分析实战》:

关于作者
托马兹·卓巴斯(Tomasz Drabas)是微软的数据科学家,目前工作于西雅图。他拥有超过13年的数据分析经验,行业领域覆盖高新技术、航空、电信、金融以及咨询。
2003年,Tomasz获得战略管理的硕士学位后,从位于波兰华沙的LOT波兰航空公司开启了他的职业生涯。2007年,他前往悉尼,在新南威尔士大学航空学院攻读运筹学博士学位;他的研究结合了离散选择模型和航空作业。在悉尼的日子里,他曾担任过Beyond Analysis Australia公司的数据分析师,沃达丰和记澳大利亚公司的高级数据分析师/数据科学家,以及其他职位。他也发表过学术论文,参加过国际会议,并且担任过学术期刊的审稿人。
2015年,他搬到西雅图,开始在微软工作。在这里他致力于解决高维特征空间的问题。

本书深入数据分析与建模的世界,使用多种方法、工具及算法,提供了丰富的技巧。
  本书第 一部分会讲授一些实战技巧,用于读取、写入、清洗、格式化、探索与理解数据;第二部分由一些较深入的主题组成,比如分类、聚类和预测等。第三部分介绍更高深的主题,从图论到自然语言处理,到离散选择模型,再到模拟。
  通过阅读本书,你将学到:
  - 使用Pandas与OpenRefine读取、清洗、转换与存储数据
  - 使用Pandas与D3.js理解数据,探索变量间的关系
  - 使用Pandas、mlpy、NumPy与Statsmodels,应用多种技法,分类、聚类银行的营销电话
  - 使用Pandas、NumPy与mlpy减少数据集的维度,提取重要的特征
  - 使用NetworkX和Gephi探索社交网络的交互,用图论的概念识别出欺诈行为
  - 通过加油站的例子,学习代理人基建模的模拟技术

 

第1章讲解了利用多种数据格式与数据库来读取与写入数据的过程,以及使用OpenRefine与Python对数据进行清理。

《数据分析实战-托马兹.卓巴斯》读书笔记第1章-数据格式与数据交互

第2章描述了用于理解数据的多种技巧。我们会了解如何计算变量的分布与相关性,并生成多种图表。

《数据分析实战-托马兹.卓巴斯》读书笔记第2章-变量分布与相关性、图表

第3章介绍了处理分类问题的种种技巧,从朴素贝叶斯分类器到复杂的神经网络和随机树森林。

《数据分析实战-托马兹.卓巴斯》读书笔记第3章-从朴素贝叶斯分类器到复杂的神经网络、随机树森林

第4章解释了多种聚类模型;从最常见的k均值算法开始,一直到高级的BIRCH算法和DBSCAN算法。

《数据分析实战-托马兹.卓巴斯》读书笔记第4章-聚类技巧(K均值、BIRCH、DBSCAN)

第5章展示了很多降维的技巧,从最知名的主成分分析出发,经由其核版本与随机化版本,一直讲到线性判别分析。

《数据分析实战-托马兹.卓巴斯》读书笔记第5章-降维技巧

第6章涵盖了许多回归模型,有线性的,也有非线性的。我们还会复习随机森林和支持向量机,它们可用来解决分类或回归问题。

《数据分析实战-托马兹.卓巴斯》读书笔记第6章-回归模型

第7章探索了如何处理和理解时间序列数据,并建立ARMA模型以及ARIMA模型。

《数据分析实战-托马兹.卓巴斯》读书笔记第7章-时间序列技术(ARMA模型、ARIMA模型)

第8章介绍了如何使用NetworkX和Gephi来对图数据进行处理、理解、可视化和分析。

《数据分析实战-托马兹.卓巴斯》读书笔记第8章--图(NetworkX、Gephi)修订版

第9章描述了多种与分析文本信息流相关的技巧:词性标注、主题抽取以及对文本数据的分类。

《数据分析实战-托马兹.卓巴斯》读书笔记第9章--自然语言处理NLTK(分析文本、词性标注、主题抽取、文本数据分类)

第10章解释了选择模型理论以及一些流行的模型:多项式Logit模型、嵌套Logit模型以及混合Logit模型。

 《数据分析实战-托马兹.卓巴斯》读书笔记第10章--离散选择模型理论

第11章涵盖了代理人基的模拟;我们模拟的场景有:加油站的加油过程,电动车耗尽电量以及狼——羊的掠食。

《数据分析实战-托马兹.卓巴斯》读书笔记第11章--代理人基的模拟(加油站加油、电动车耗尽电量、狼-羊掠食)

 

 

随书源码官方下载:
http://www.hzcourse.com/web/refbook/detail/7821/92

 

 

二、《python数据分析(第2版)-阿曼多.凡丹戈

 作者简介:

Armando Fandango是Epic工程咨询集团首席数据科学家,负责与国防和政府机构有关的保密项目。Armando是一位技术精湛的技术人员,拥有全球创业公司和大型公司的工作经历和高级管理经验。他的工作涉及金融科技、证券交易所、银行、生物信息学、基因组学、广告技术、基础设施、交通运输、能源、人力资源和娱乐等多个领域。
Armando在预测分析、数据科学、机器学习、大数据、产品工程、高性能计算和云基础设施等项目中工作了十多年。他的研究兴趣横跨机器学习、深度学习和科学计算等领域。

内容简介:

该书是一本介绍如何用Python进行数据分析的学习指南。全书共12章,从Python程序库入门、NumPy数组和Pandas入门开始,陆续介绍了数据的检索、数据加工与存储、数据可视化等内容。同时,本书还介绍了信号处理与时间序列、应用数据库、分析文本数据与社交媒体、预测性分析与机器学习、Python生态系统的外部环境和云计算、性能优化及分析、并发性等内容。在本书的最后,还采用3个附录的形式为读者补充了一些重要概念、常用函数以及在线资源等重要内容。

第1章“Python程序库入门”手把手地指导读者正确安装配置Python和基础的Python数值分析软件库。同时,本章还会展示如何通过NumPy创建一个小程序以及如何利用Matplotlib来绘制简单的图形。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第1章-jupyter及常见库


第2章“NumPy数组”介绍NumPy和数组的基础知识。通过阅读本章,读者能够基本掌握NumPy数组及其相关函数。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第2章-Numpy和数组


第3章“Pandas入门”阐述Pandas的基本功能,其中涉及Pandas的数据结构与相应的操作。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第3章-Pandas入门


第4章“统计学与线性代数”对线性代数和统计函数做了简要回顾。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第4章-统计学与线性代数


第5章“数据的检索、加工与存储”介绍如何获取不同格式的数据,以及原始数据的清洗和存储方法。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第5章-数据的检索、加工与存储  


第6章“数据可视化”介绍如何利用Matplotlib和Pandas的绘图函数来实现数据的可视化。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第6章-数据可视化


第7章“信号处理与时间序列”利用太阳黑子周期数据来实例讲解时间序列和信号处理,同时还会介绍一些相关的统计模型。本章使用的主要工具是NumPy和SciPy。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第7章-信号处理与时间序列


第8章“应用数据库”介绍各种数据库和有关API的知识,其中包括关系数据库和NoSQL数据库。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第8章-应用数据库


第9章“分析文本数据和社交媒体”考察基于文本数据的情感分析和主题抽取。同时,本章还将为读者展示一个网络分析方面的实例。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第9章-分析文本数据和社交媒体

 

第10章“预测性分析与机器学习”通过一个例子来说明人工智能在天气预报上的应用,这主要借助于scikit-learn。不过,有些机器学习算法在scikit-learn中尚未实现,所以有时还要求助其他API。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第10章-预测性分析与机器学习


第11章“Python生态系统的外部环境和云计算”将提供各种实例,来说明如何集成非Python编写的现有代码。此外,本章还将为读者演示如何在云中使用Python。

《python数据分析(第2版)-阿曼多.凡丹戈》第11章读书笔记(本章略去)


第12章“性能优化、性能分析与并发性”为读者介绍通过性能分析(Profling)和Cython等关键技术来改善性能的各种技巧,同时还为读者介绍多核和分布式系统方面的相关框架。

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第12章-性能优化、性能分析与并发性及本书附录

 
附录A“重要概念”将对本书中涉及的重要概念进行简要介绍。
附录B“常用函数”概述本书中用到的程序库中的各种函数,以便于读者查阅。

 

随书源码官方下载
https://www.ptpress.com.cn/shopping/buy?bookId=bae24ecb-a1a1-41c7-be7c-d913b163c111

需要登录后免费下载。

 

 

三、《跟着迪哥学:Python数据分析与机器学习实战》

作者简介:

       唐宇迪,计算机专业博士,网易云课堂人工智能认证行家,51CTO学院讲师,CSDN博客专家、讲师。拥有多年人工智能领域培训经验,带领课程研发团队累计开发AI课程60余门,覆盖当下人工智能热门领域

内容概要:

  该书结合了机器学习、数据分析和 Python 语言,通过案例以通俗易懂的方式讲解了如何将算法应用到实际任务。 全书共 20 章,大致分为 4 个部分。第一部分介绍了 Python 的工具包,包括科学计算库 Numpy、数据分析库 Pandas、可视化库 Matplotlib;第 2 部分讲解了机器学习中的经典算法,例如回归算法、决策树、集成算法、支持向量机、聚类算法等;第 3 部分介绍了深度学习中的常用算法,包括神经网络、卷积神经网络、递归神经网络;第 4 部分是项目实战,基于真实数据集,将算法模型应用到实际业务中。

       该书适合对人工智能、机器学习、数据分析等方向感兴趣的初学者和爱好者。

 《Python数据分析与机器学习实战-唐宇迪》读书笔记第1 章--机器学习概念、入门环境

第5章-回归算法,本章主要介绍线性回归与逻辑回归算法,分别对应回归与分类问题,并结合梯度下降优化思想进行参数求解。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第5章-回归算法

第6章-逻辑回归项目实战——信用卡欺诈检测。

 《Python数据分析与机器学习实战-唐宇迪》读书笔记第6章--逻辑回归项目实战 ——信用卡欺诈检测

 第7章-决策树,本章介绍树模型的构造方法以及其中涉及的剪枝策略。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第7章--决策树

 第8章集成学习(ensemble learning)是目前非常流行的机器学习策略,基本上所有问题都可以借用其思想来得到效果上的提升。集成学习既可以用于分类问题,也可以用于回归问题,在机器学习领域会经常看到它的身影,本章就来探讨一下几种经典的集成策略,并结合其应用进行通俗解读。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第8章--集成算法

 第9章-随机森林项目实战——气温预测。本章将从实战的角度出发,借助Python工具包完成气温预测任务,其中涉及多个模块,主要包含随机森林建模、特征选择、效率对比、参数调优等。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第9章--随机森林项目实战——气温预测(1/2)

《Python数据分析与机器学习实战-唐宇迪》读书笔记第9章--随机森林项目实战——气温预测(2/2)

 第10章-特征工程。特征工程其实就是要从原始数据中找到最有价值的信息,并转换成计算机所能读懂的形式。本章结合数值数据与文本数据来分别阐述如何进行数值特征与文本特征的提取。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第10章-特征工程

 第11章--贝叶斯算法项目实战 ——新闻分类。 本章结合贝叶斯算法通过新闻数据集的分类任务来探索其中每一步实现细节。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第11章--贝叶斯算法项目实战 ——新闻分类

 第12章支持向量机。在机器学习中,支持向量机(Support Vector Machine,SVM)是最经典的算法之一,应用领域也非常广,其效果自然也是很厉害的。本章对支持向量机算法进行解读,详细分析其每一步流程及其参数对结果的影响。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第12章--支持向量机

 第13章-推荐系统,本章向大家介绍推荐系统中的常用算法。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第13章--推荐系统

 第14章-音乐推荐系统实战,本章的目标就要从零开始打造一个音乐推荐系统,包括音乐数据集预处理、基于相似度进行推荐以及基于矩阵分解进行推荐。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第14章--音乐推荐系统实战

 第15章降维算法。如果拿到的数据特征过于庞大,一方面会使得计算任务变得繁重;另一方面,如果数据特征还有问题,可能会对结果造成不利的影响。降维是机器学习领域中经常使用的数据处理方法,一般通过某种映射方法,将原始高维空间中的数据点映射到低维度的空间中,本章将从原理和实践的角度介绍两种经典的降维算法——线性判别分析和主成分分析。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第15章-降维算法

 第16章聚类算法。分类和回归算法在推导过程中都需要数据标签,也就是有监督问题。那么,如果数据本身没有标签,如何把它们按堆进行划分呢?这时候聚类算法就派上用场了,本章选择聚类算法K-means与DBSCAN进行原理讲解与实例演示。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第16章--聚类算法

 第17章-神经网络,本章内容主要包括神经网络各模块工作细节、整体网络模型架构、过拟合解决方法。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第17章--神经网络

 第18章TensorFlow实战,本章从实战的角度介绍Numpy工具包的核心模块与常用函数的使用方法。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第18章--TensorFlow实战

 第19章-卷积神经网络。本章介绍现阶段神经网络中非常火的模型——卷积神经网络,它在计算机视觉中有着非常不错的效果。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第19章--卷积神经网络

 第20章-科学计算库(Numpy)神经网络项目实战——影评情感分析。

《Python数据分析与机器学习实战-唐宇迪》读书笔记第20章--神经网络项目实战——影评情感分析

 

 

该书资源下载,请至异步社区:https://www.epubit.com

 

posted @ 2020-03-09 14:32  邀月  阅读(4853)  评论(0编辑  收藏  举报