04 2020 档案
摘要:上个一篇博客讲解了如何进行数据的缺失值处理,本篇就来讲解一下如何进行数据转换的一系列操作。 一:删除重复值 由于各种原因,DataFrame中会出现重复行,如下: 用duplicated方法可以返回一个布尔值Series,找出每一行是否有重复情况。 而drop_duplicates返回的是DataF
阅读全文
摘要:[TOC] 我有新开了一个专栏,讲解python机器学习的一些实例,本次要学习的是朴素贝叶斯算法的中文邮件分类。 朴素贝叶斯算法的中文邮件分类 1.朴素贝叶斯算法原理 贝叶斯理论:根据一个已发生事件的概率计算另一个事件发生的概率。 朴素:在整个过程中只做最原始,最简单的假设,例如假设特征之间相互独立
阅读全文
摘要:[TOC] 关于文件的读写方面先放一下,接下来介绍数据清洗方面的知识。有时候数据对于特定的任务来说格式并不正确,需要转化为更加适合的数据形式。这里介绍数据清洗的有关基础知识,本篇博客先介绍如何处理缺失值。 一:处理缺失值 缺失数据在很多数据分析应用中都出现过,对于数值型数据,pandas使用浮点值N
阅读全文
摘要:[TOC] pandas可以进行数据输入和输出,有以下几种类型:读取文本文件及硬盘上其他更高效的格式文件,从数据库中载入数据,于网络资源进行交互(比如Web API)。 下面进行不同文本文件的读取和写入操作讲解,首先进行文本格式数据的读写讲解。 一:文本格式数据的读写 将表格型数据读取为DataFr
阅读全文