摘要: 更多IT系统运维、大数据实战、项目管理、商务英语及应用知识,扫描下方二维码关注公众号了解更多!!! 如果你想说,我不想知道里面的逻辑和实现方法,只想要python生成随机数的代码,请移步本文末尾,最简单的demo帮你快速获取实现方法。 先开始背景故事说明: 在数据分析中,数据的获取是第一步,nump 阅读全文
posted @ 2018-05-23 21:37 KévinX 阅读(20056) 评论(0) 推荐(2) 编辑
摘要: python中的axis 其实问题理解axis有问题,df.mean其实是在每一行上取所有列的均值,而不是保留每一列的均值。也许简单的来记就是axis=0代表往跨行(down),而axis=1代表跨列(across),作为方法动作的副词(译者注) 换句话说: 使用0值表示沿着每一列或行标签\索引值向 阅读全文
posted @ 2018-04-22 23:21 KévinX 阅读(555) 评论(0) 推荐(0) 编辑
摘要: matplotlib绘图 阅读全文
posted @ 2018-04-22 23:19 KévinX 阅读(492) 评论(0) 推荐(0) 编辑
摘要: ▌使用 pathlib 模块来更好地处理路径 pathlib 是 Python 3默认的用于处理数据路径的模块,它能够帮助我们避免使用大量的 os.path.joins语句: 1 2 3 4 5 6 7 8 向左滑动查看完整代码 在Python2中,我们需要通过级联字符串的形成来实现路径的拼接。而现 阅读全文
posted @ 2018-01-31 16:17 KévinX 阅读(1594) 评论(0) 推荐(0) 编辑
摘要: 在计算机科学,信息论中这五大算法体现的思想都是一些常用的核心思想,几乎所有算法都是基于这几类算法的思想上具体实现的,它们也是一种总结归纳吧。 分治算法 一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问 阅读全文
posted @ 2018-01-31 14:45 KévinX 阅读(307) 评论(0) 推荐(0) 编辑
摘要: ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的 阅读全文
posted @ 2018-01-31 10:12 KévinX 阅读(5033) 评论(0) 推荐(0) 编辑
摘要: numpy中有一些常用的用来产生随机数的函数,randn()和rand()就属于这其中。 numpy.random.randn(d0, d1, …, dn)是从标准正态分布中返回一个或多个样本值。 numpy.random.rand(d0, d1, …, dn)的随机样本位于[0, 1)中。 代码: 阅读全文
posted @ 2018-01-29 20:41 KévinX 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 更多IT系统运维、大数据实战、项目管理、商务英语及应用知识,扫描下方二维码关注公众号了解更多!!! merage# pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来,语法如下: 阅读全文
posted @ 2018-01-29 19:31 KévinX 阅读(74673) 评论(0) 推荐(0) 编辑
摘要: 手写很累,复制的同学请点赞犒劳下在下哦 ^_^ 一、对于.CSV类型的数据 它们的数据导入都很简单 且看下面一顿操作: 我平时一般是读取整个文件,直接这样就可以了: 得到的,是一个DataFrame类型的data,不熟悉处理方法可以参考pandas十分钟入门 如有 OSError: Initiali 阅读全文
posted @ 2018-01-29 12:51 KévinX 阅读(27194) 评论(0) 推荐(0) 编辑
摘要: 一、pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析。它提供了大量高级的数据结构和对数据处理的方法。 pandas 有两个主要的数据结构:Series 和 DataFrame。 二、Series Series 是一个一维数组对象 ,类似 阅读全文
posted @ 2018-01-29 11:08 KévinX 阅读(471) 评论(0) 推荐(0) 编辑