01 2018 档案
摘要:▌使用 pathlib 模块来更好地处理路径 pathlib 是 Python 3默认的用于处理数据路径的模块,它能够帮助我们避免使用大量的 os.path.joins语句: 1 2 3 4 5 6 7 8 向左滑动查看完整代码 在Python2中,我们需要通过级联字符串的形成来实现路径的拼接。而现
阅读全文
摘要:在计算机科学,信息论中这五大算法体现的思想都是一些常用的核心思想,几乎所有算法都是基于这几类算法的思想上具体实现的,它们也是一种总结归纳吧。 分治算法 一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问
阅读全文
摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的
阅读全文
摘要:numpy中有一些常用的用来产生随机数的函数,randn()和rand()就属于这其中。 numpy.random.randn(d0, d1, …, dn)是从标准正态分布中返回一个或多个样本值。 numpy.random.rand(d0, d1, …, dn)的随机样本位于[0, 1)中。 代码:
阅读全文
摘要:更多IT系统运维、大数据实战、项目管理、商务英语及应用知识,扫描下方二维码关注公众号了解更多!!! merage# pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来,语法如下:
阅读全文
摘要:手写很累,复制的同学请点赞犒劳下在下哦 ^_^ 一、对于.CSV类型的数据 它们的数据导入都很简单 且看下面一顿操作: 我平时一般是读取整个文件,直接这样就可以了: 得到的,是一个DataFrame类型的data,不熟悉处理方法可以参考pandas十分钟入门 如有 OSError: Initiali
阅读全文
摘要:一、pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析。它提供了大量高级的数据结构和对数据处理的方法。 pandas 有两个主要的数据结构:Series 和 DataFrame。 二、Series Series 是一个一维数组对象 ,类似
阅读全文
摘要:pandas中也常常用到的join 和merge方法 merge pandas的merge方法提供了一种类似于SQL的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如R)要高效。 和SQL语句的对比可以看这里 merge的参数 on:列名,join用来对齐的那一列的名字,用到这个参
阅读全文
摘要:本文主要介绍可操作excel文件的xlrd、xlwt模块。其中xlrd模块实现对excel文件内容读取,xlwt模块实现对excel文件的写入。 安装xlrd和xlwt模块 xlrd和xlwt模块不是自带的,需要自行安装。模块安装建议使用pip自动安装。安装方法参考<Python自动安装第三方模块>
阅读全文
摘要:NumPy数组的维数称为秩(rank),一维数组的秩为1,二维数组的秩为2,以此类推。在NumPy中,每一个线性的数组称为是一个轴(axes),秩其实是描述轴的数量。比如说,二维数组相当于是一个一维数组,而这个一维数组中每个元素又是一个一维数组。所以这个一维数组就是NumPy中的轴(axes),而轴
阅读全文
摘要:VPN的作用,不用做解释,有需要的人很明白。网上有很多卖VPS或VPN服务的,我曾经买过,但使用时,速度慢、不稳定。经常长时间的摸索,发现了稳定、可靠、数据安全(网上购买,担心用户数据会被泄露)、且免费的方法:基于Amazon AWS EC2搭建自己的VPN服务器。 搭建自己的VPN服务器,有两个关
阅读全文
摘要:Matplotlib简述: Matplotlib是一个用于创建出高质量图表的桌面绘图包(主要是2D方面)。该项目是由John Hunter于2002年启动的,其目的是为Python构建一个MATLAB式的绘图接口。如果结合Python IDE使用比如PyCharm,matplotlib还具有诸如缩放
阅读全文