随笔分类 - python数据分析(pandas/numpy/matplotlib)
记录我学习数据分析的每一步
摘要:pandas日期类型汇总 时间序列数据的特点是有规律地随着时间变化而变化,它们的变化趋势可以被分析和预测。时间序列分析是一种用于预测未来值或评估过去值的统计方法,常常被用于预测未来趋势、季节性变化、周期性变化、随机波动等。 1.日期类型 原始数据中,日期一般会存储为各种类型字符串,比如: • 202
阅读全文
摘要:pandas中的catagory 类型 pandas中的category类型是一种用于处理分类变量的数据类型。 它可以大大提高数据处理和计算效率,并减少内存占用。 在某些情况下,数据中的一些变量只包含有限的可能取值,例如“性别”、“地区”等,这些变量可以归类为分类变量。 如果将这些变量存储为字符串或
阅读全文
摘要:numpy中np.linspace函数与np.arange函数的区别 NumPy 中的linspace()和arange()函数都可以用于创建数字序列,但它们之间有一些关键的区别。 arange()函数创建一个一维的数组,其中元素从指定的开始值开始,按指定的间隔增加,并一直到结束值(但不包括结束值)
阅读全文
摘要:时间特征索引 import pandas as pd filepath = r"E:\Desktop\配套代码和数据集\配套代码和数据集\第3章:Pandas\Pandas代码\data\flowdata.csv" df = pd.read_csv(filepath,index_col=0,pars
阅读全文
摘要:pivot数据透视表 filepath = r"E:\Desktop\配套代码和数据集\配套代码和数据集\第3章:Pandas\Pandas代码\data\titanic.csv" df = pd.read_csv(filepath) df.pivot_table(index="Sex",colum
阅读全文
摘要:pandas的突出显示(style.highlight方法) Pandas提供了一些常用的内置样式,可快速对表格数据进行格式化展示,要记住的是该方法只能在jupyter notebook中显示出来,并不能在pycharm中显示,并且不可用print打印,但是可以将筛选出的文件保存至文件中 空值高亮
阅读全文
摘要:多重索引 参考来源:Pandas基础教程五_多重索引 - 知乎 (zhihu.com) 1.多重索引的构建 #待完善 2.多重索引值得获取 创建测试数据集 import pandas as pd import numpy as np iterables = [['1', '2', '3'], ['b
阅读全文
摘要:Pandas中的文本处理 #参考来源:Pandas玩转文本处理! (qq.com) 向量化的字符串处理方法 Pandas的字符串属的方法几乎包括了大部分Python的内置字符串方法(内置共有45个方法),下面将列举一些常见的方法的用法 只能用于series,不能直接用于整个数据框 | 方法 | 说明
阅读全文
摘要:数据的删除 #删除空值所在的行 df = df.dropna(axis = 0,subset = ['测温探头编码'])#删除空值的行,不加subset就是删除所有的行或列 #del #使用del, 一次只能删除一列,不能一次删除多列 import pandas as pd data = pd.re
阅读全文
摘要:pandas中的inplace参数,将变量值赋给inplace= True 的结果,输出为none #在学习drop函数是遇见将变量值赋给inplace= True 的结果,输出为none import pandas as pd import numpy as np city = pd.DataFr
阅读全文
摘要:2统计函数的应用 df.groupby("Courses").max()#以"Courses"为分组依据,求每列的最大值(主要针对相同的"Courses") #Na值不参与计算 df.groupby("Courses").min()#通过min函数将分组后的最小值列出来 df.groupby("Co
阅读全文
摘要:Groupby 1.Groupby的基础操作 import pandas as pd import numpy as np data = {"Courses":["Numpy","Pandas","Java","Pandas","Python","Python"],"Teacher":["Jack"
阅读全文
摘要:pandas中的apply函数 apply在调用函数时,默认将数据框逐行或逐列作为一个参数代入调用的函数中 apndas 的 apply() 函数可以作用于 Series 或者整个 DataFrame,功能也是自动遍历整个 Series 或者 DataFrame, 对每一个元素运行指定的函数 。Pa
阅读全文
摘要:pandas中时间类型数据的处理 1.pandas中6个时间相关的类 对时间类型数据进行分析的前提就是将原本字符串的时间转换为标准时间类型,pandas继承了Numpy可和datetime库的时间相关模块,提供了6种时间相关的类 | 类名称 | 说明 | | | | | Timestamp | 最基
阅读全文
摘要:# 使用 iloc 或 loc 多列数据类型进行转换,源数据类型修失败 import pandas as pd import numpy as np #在利用iloc对数据框中列的类型进行修改时,可以看到数据类型并没有改变 df = pd.DataFrame([['2020-01-01', '202
阅读全文
摘要:改Pandas中列的数据类型的几种方法 pandas中常见的数据类型 | pandas | python type | nummpy type | usage | | | | | | | object | str | string_,unicode_ | Text | | int64 | int |
阅读全文
摘要:numpy中的矩阵 1.矩阵 矩阵,和array的区别是矩阵必须是2维的,但array可以是多维的 2.向量 3.加法和标量相乘 4.矩阵向量乘法 矩阵乘法遵循准则:(M行,N列)*(N行,L列)=(M行,L列) 5.矩阵乘法 6.矩阵乘法的性质 矩阵的乘法不满足交换律:A×B ≠ B×A 矩阵的乘
阅读全文
摘要:数组间运算 1.数组与数的运算 arr = np.array([[1,2,3,2,1,4],[5,6,1,2,3,1]]) arr + 1#每个元素分别+1 """ array([[2, 3, 4, 3, 2, 5], [6, 7, 2, 3, 4, 2]]) """ arr/2#每个元素分别除2
阅读全文
摘要:ndarray的运算 1.逻辑运算 score = np.random.randint(40,100,(10,5))#生成一个10行5列取值在40-50之间的数组 test_sore = score[6:,0:5]#从第6行开始到末尾,5列,取出4名同学用于逻辑判断 test_sore>60 tes
阅读全文
摘要:数据合并merge #参数解释 merge( self, right: DataFrame | Series, how: str = "inner",#连接方式:‘inner’(默认);还有,‘outer’、‘left’、‘right’ on: IndexLabel | None = None,#用
阅读全文