KévinX

2018年5月23日

摘要：更多IT系统运维、大数据实战、项目管理、商务英语及应用知识，扫描下方二维码关注公众号了解更多！！！如果你想说，我不想知道里面的逻辑和实现方法，只想要python生成随机数的代码，请移步本文末尾，最简单的demo帮你快速获取实现方法。先开始背景故事说明：在数据分析中，数据的获取是第一步，nump 阅读全文

posted @ 2018-05-23 21:37 KévinX 阅读(20056) 评论(0) 推荐(2) 编辑

2018年4月22日

Numpy库解析

摘要： python中的axis 其实问题理解axis有问题，df.mean其实是在每一行上取所有列的均值，而不是保留每一列的均值。也许简单的来记就是axis=0代表往跨行（down)，而axis=1代表跨列（across)，作为方法动作的副词（译者注）换句话说: 使用0值表示沿着每一列或行标签\索引值向阅读全文

posted @ 2018-04-22 23:21 KévinX 阅读(555) 评论(0) 推荐(0) 编辑

matplotlib库解析

摘要： matplotlib绘图阅读全文

posted @ 2018-04-22 23:19 KévinX 阅读(492) 评论(0) 推荐(0) 编辑

2018年1月31日

python2迁移python3的问题

摘要： ▌使用 pathlib 模块来更好地处理路径 pathlib 是 Python 3默认的用于处理数据路径的模块，它能够帮助我们避免使用大量的 os.path.joins语句： 1 2 3 4 5 6 7 8 向左滑动查看完整代码在Python2中，我们需要通过级联字符串的形成来实现路径的拼接。而现阅读全文

posted @ 2018-01-31 16:17 KévinX 阅读(1594) 评论(0) 推荐(0) 编辑

五大常用算法：分治、动态规划、贪心、回溯和分支界定

摘要：在计算机科学，信息论中这五大算法体现的思想都是一些常用的核心思想，几乎所有算法都是基于这几类算法的思想上具体实现的，它们也是一种总结归纳吧。分治算法一、基本概念在计算机科学中，分治法是一种很重要的算法。字面上的解释是“分而治之”，就是把一个复杂的问题分成两个或更多的相同或相似的子问题，再把子问阅读全文

posted @ 2018-01-31 14:45 KévinX 阅读(307) 评论(0) 推荐(0) 编辑

ETL概念，ETL流程

摘要： ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的阅读全文

posted @ 2018-01-31 10:12 KévinX 阅读(5033) 评论(0) 推荐(0) 编辑

2018年1月29日

numpy 和 pandas 中常用的一些函数及其参数

摘要： numpy中有一些常用的用来产生随机数的函数，randn()和rand()就属于这其中。 numpy.random.randn(d0, d1, …, dn)是从标准正态分布中返回一个或多个样本值。 numpy.random.rand(d0, d1, …, dn)的随机样本位于[0, 1)中。代码：阅读全文

posted @ 2018-01-29 20:41 KévinX 阅读(704) 评论(0) 推荐(0) 编辑

python数据表的合并(python pandas join() 、merge()和concat()的用法)

摘要：更多IT系统运维、大数据实战、项目管理、商务英语及应用知识，扫描下方二维码关注公众号了解更多！！！ merage# pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来，语法如下：阅读全文

posted @ 2018-01-29 19:31 KévinX 阅读(74673) 评论(0) 推荐(0) 编辑

主流数据文件类型（.dat/.txt/.json/.csv）导入到python

摘要：手写很累，复制的同学请点赞犒劳下在下哦 ^_^ 一、对于.CSV类型的数据它们的数据导入都很简单且看下面一顿操作：我平时一般是读取整个文件，直接这样就可以了：得到的，是一个DataFrame类型的data，不熟悉处理方法可以参考pandas十分钟入门如有 OSError: Initiali 阅读全文

posted @ 2018-01-29 12:51 KévinX 阅读(27194) 评论(0) 推荐(0) 编辑

pandas基础: Series和DataFrame的简单介绍

摘要：一、pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包，主要目的是为了数据分析。它提供了大量高级的数据结构和对数据处理的方法。 pandas 有两个主要的数据结构：Series 和 DataFrame。二、Series Series 是一个一维数组对象，类似阅读全文

posted @ 2018-01-29 11:08 KévinX 阅读(471) 评论(0) 推荐(0) 编辑

求知是人的本能

公告