摘要: 处理数据的时候往往需要对原始数据进行类型转换和预览等操作,下面介绍常用的处理预览和数据转换方法 预览:例: import pandas as pdsec_weather = pd.read_table(r'D:\weather.csv',sep=',')sec_weather.head() 如果只需 阅读全文
posted @ 2019-11-21 11:20 另一个起点 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 绝大多数公司都会选择将数据存入数据库中,因为数据库既可以存放海量数据,又可以非常便捷地实现数据的查询。下面以MySQL和SQL Server为例,来练习Pandas模块和 对应的数据库模块。 首先需要介绍pymysql模块和pymssql模块中的连接函数connect,虽然两个模块中的连接函数名称一 阅读全文
posted @ 2019-11-21 10:14 另一个起点 阅读(752) 评论(0) 推荐(0) 编辑
摘要: 上面那篇文章中,初步介绍了一个文本文件的读取;接下来介绍另外一种常见的本地数据格式,那就是Excel电子表格,如果读者在学习或者工作中需要使用Python分析某个Excel表格数据,改如何完成第一个的数据读取呢? 1.Pandas模块中的read_excel 方法原型: pd.read_excel( 阅读全文
posted @ 2019-11-01 16:31 另一个起点 阅读(7557) 评论(0) 推荐(0) 编辑
摘要: 上面一篇文章有记录pandas构造数据框的方式有二维数组,字典,嵌套的列表和元组等,本篇用于介绍通过外部数据读取的方式来构造数据框。 python读取外部数据集的时候,这些数据集可能包含在文本文件(csv,txt),电子表格Excel和数据库中(Mysql,SQL server)等,那么如何来用pa 阅读全文
posted @ 2019-11-01 14:54 另一个起点 阅读(1964) 评论(0) 推荐(1) 编辑
摘要: 列表或字典的引用: 引用针对变量的时候,传递引用后,对引用后的对象的值进行改变是不会影响到原值的;而列表不一样如: spam =42 cheese = spam spam =100 print(spam) #out:100 print(cheese) #out:42 如果对列表进行引用会是什么情况呢 阅读全文
posted @ 2019-10-31 17:29 另一个起点 阅读(2327) 评论(0) 推荐(0) 编辑
摘要: Pandas模块的核心操作对象就是对序列(Series)和数据框(Dataframe)。序列可以理解为数据集中的一个字段,数据框是值包含至少两个字段(或序列) 的数据集。 构造序列 1.通过同质的列表或元组构建 2.通过字典构建 3.通过numpy中的一维数组构建 4.通过数据框Dataframe中 阅读全文
posted @ 2019-10-31 15:07 另一个起点 阅读(1947) 评论(0) 推荐(0) 编辑
摘要: numpy模块的核心就是基于数组的运算,相比于列表和其他数据结构,数组的运算效率是最高的。在统计分析和挖掘过程中,经常会使用到numpy模块的函数,以下是常用的数学函数和统计函数: 常数p就是圆周率 3.1415926... 常数e :2.71828... np.fabs(arr) 例如:np.fa 阅读全文
posted @ 2019-10-25 16:45 另一个起点 阅读(5032) 评论(0) 推荐(0) 编辑
摘要: 数组的四则运算 在numpy模块中,实现四则运算的计算既可以使用运算符号,也可以使用函数,具体如下例所示: #加法运算 import numpy as npmath = np.array([98,83,86,92,67,82])english = np.array([68,74,66,82,75,8 阅读全文
posted @ 2019-10-24 00:15 另一个起点 阅读(1022) 评论(0) 推荐(0) 编辑
摘要: 数组的创建 import numpy as np arr1 = np.array([3,10,8,7,34,11,28,72]) arr2 = np.array(((8.5,6,4.1,2,0.7),(1.5,3,5.4,7.3,9), (3.2,3,3.8,3,3),(11.2,13.4,15.6 阅读全文
posted @ 2019-10-23 17:16 另一个起点 阅读(4085) 评论(0) 推荐(0) 编辑
摘要: 以下整理python中常用的正则符号,相信能够熟悉掌握这些正则符号,大部分字符串处理将会游刃有余。 另外 (.*?)用于分组,默认返回括号内的匹配内容, 在Python开发爬虫过程中经常会遇到正则表达式,其中(.*?) 的使用概率较高,那么这个正则表达式到底什么意思呢? “.*?” 表示非贪心算法, 阅读全文
posted @ 2019-10-17 00:01 另一个起点 阅读(1233) 评论(0) 推荐(0) 编辑