随笔分类 - 数据分析及数据挖掘(Python)
摘要:硬件足够硬,软件足够多,这便是一个人才能的护城河。 参考: 书名:《数据化分析 Python 实战 - 林骥 - V6.0》 本书作者(该书由作者整理,本人仅依照其内容整理出个人笔记,如果您感兴趣,可联系作者获取电子书完本): 0、概述 数据赋能系统 1、思维篇 1.1 数据化分析的思维 数据分析的
阅读全文
摘要:1. 实现决策树的前提:信息增益 信息增益: 数据集合在被处理的之前之后,其信息发生的变化称为信息增益。 香农熵或熵: 集合信息的度量方式称为香农熵或者简称为熵。 熵被定义为信息的期望值: 信息的定义 如果存在有多个分类(分类1、分类2...)的条件下,待分类的事务可能被划分为其中某个分类,
阅读全文
摘要:语义原理: k-近邻算法(k-Nearest Neighbor,KNN)。 对于一个样本数据集合,其由特征数据和分类数据组成,特征数据和分类数据间存在对应关系,将其视为训练样本集;对于只存在特征数据的新数据,将其与训练样本集中特征进行比较,然后用算法提取样本集中特征最相似数据(最近邻)的分类标签,作
阅读全文
摘要:1、机器学习概述 机器学习共有六个基本步骤: 问题定义 研究和提炼问题的特征,以帮助我们更好地理解项目的目标。 特征工程 数据理解 通过描述性统计和可视化来分析现有的数据质量和分布。 数据预处理 对数据进行预处理,特征选定,以便于构建一个预测模型。 模型选择 通过一定的方法分离一部分数据,用来评估算
阅读全文
摘要:说明: 书名:CDA数据分析师系列—从零进阶!数据分析的统计基础 ISBN:978-7-121-25244-0 1、数据分析概述 1.1 什么是数据分析 描述 有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据,提炼有价值信息的一个过程。 数据分析的三个方向 一是目标,数据分析的关键
阅读全文
摘要:参考url:https://jakevdp.github.io/PythonDataScienceHandbook/00.00-preface.html 描述:笔记 目录 1、pandas对象简介 1.1 Pandas的Series对象 1.2 Pandas的DataFrame对象 1.3 Pand
阅读全文
摘要:来源:《Python数据科学手册》 url:https://github.com/jakevdp/PythonDataScienceHandbook 描述:笔记 目录 1、理解python中的数据类型 1.1 Python整形不仅仅是一个整形 1.2 Python列表不仅仅是一个列表 1.3 Pyt
阅读全文
摘要:参考来源:《Python数据科学手册》第4章 URL:https://jakevdp.github.io/PythonDataScienceHandbook/ 描述:笔记 目录: 1、Matplotlib常用技巧 1.1 导入Matplotlib 1.2 设置绘图样式 1.3 用不用show()?如
阅读全文
摘要:URL:https://edu.csdn.net/course/play/26990/361139 第一章:课程导读 背景 1、数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步 2、数据清洗的过程决定了数据分析的准确性 3、随着大数据的越来越普及,数据清洗是必备的技能之一
阅读全文