随笔分类 - Pandas
摘要:pandas读取文本文件数据的常用方法: 方法 描述 返回数据 read_csv 读取csv文件 DataFrame或TextParser read_fwf 读取表格或固定宽度格式的文本行到数据框 DataFrame或TextParser read_table 读取通用分隔符分割的数据文件到数据框
阅读全文
摘要:DataFrame.ewm(self,com=None,halflife=None, alpha=None, min_periods=0, adjust=True, ignore_na=False, axis=0) 提供指数加权平均。 返回值 DataFrame 参数 com:float,可选根据质
阅读全文
摘要:分层/多级索引能在较低纬度的数据结构(如Series和DataFrame)中存储和操作任意维度的数据, 1. 创建MultiIndex MultiIndex对象是标准索引Index对象的扩展,可以将MultiIndex看作一个元组数组,其中每个元组都是唯一的。可以从数组列表(MultiIndex.f
阅读全文
摘要:字符串的合并,主要有4种方法: 1. 使用“+”组合字符串 例如:输入x='a'+'b'得到x的值是‘ab’。 2. 使用%占位符组合字符串 例如:输入x='I am %s'%'Tony',得到x的值是‘I am Tony’。 3. 使用.join方法将多个可迭代对象合并 例如:输入x=' '.jo
阅读全文
摘要:用途 pandas.cut用来把一组数据分割成离散的区间。比如一组年龄数据,pandas.cut将年龄分割成不同的年龄段并打上标签。 原型 pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3,include_
阅读全文
摘要:Series类型的数据,经过 to_datetime 之后就可以用 pandas.Series.dt.days 和 pandas.Series.pd.month。 除了 days 和 month 外,还包括 date、dayofweek、dayofyear、days_in_month、freq、ho
阅读全文
摘要:数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。 import pandas as pd import numpy as np df = pd.DataFrame(np.arange(20).reshape(
阅读全文
摘要:1. Pandas数据类型 pandas做数据处理,经常用到数据转换,得到正确类型的数据。 pandas与numpy之间的数据对应关系。 重点介绍object,int64,float64,datetime64,bool等几种类型,category与timedelta两种类型这里不做介绍。 Custo
阅读全文
摘要:1. groupby() 2. 聚合方法size()和count() size跟count的区别: size计数时包含NaN值,而count不包含NaN值 count() size() 来自:https://blog.csdn.net/m0_37870649/article/details/8097
阅读全文
摘要:来自:https://www.cnblogs.com/everfight/p/pandas_select_rows.html
阅读全文
摘要:Pandas包的merge、join、concat方法可以完成数据的合并和拼接,merge方法主要基于两个dataframe的共同列进行合并,join方法主要基于两个dataframe的索引进行合并,concat方法是对series或dataframe进行行拼接或列拼接。 1. Merge方法 pa
阅读全文
摘要:来自:Python那些事 pandas中accessor功能很强大,可以将它理解为一种属性接口,通过它获得额外的方法。 下面用代码和实例理解一下: 对于Series数据结构使用_accessors方法,我们得到3个对象:cat, str, dt。 .cat:用于分类数据(Categorical da
阅读全文
摘要:iterrows(): 将DataFrame迭代为(insex, Series)对。 itertuples(): 将DataFrame迭代为元祖。 iteritems(): 将DataFrame迭代为(列名, Series)对 现有如下DataFrame数据: iterrows(): iterite
阅读全文
摘要:在pandas里面常用value_counts确认数据出现的频率。 1. Series 情况下: pandas 的 value_counts() 函数可以对Series里面的每个值进行计数并且排序。 import pandas as pd df = pd.DataFrame({'区域' : ['西安
阅读全文
摘要:gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF,LDA,LSI等模型转换成向量模式,此外,gensim还实现了word2vec,能够将单词转换为词向量。 1. corpora和dictionary 1.1 基本概念和用法 corpora是gensim中的一个基本概念,是文
阅读全文
摘要:来自:https://www.cnblogs.com/yesuuu/p/6100714.html
阅读全文
摘要:DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise') 参数: labels:要删除行、列的名字。 axis:默认为0,指删除行;axis=1指删
阅读全文
摘要:来自:https://blog.csdn.net/xw_classmate/article/details/51333646 来自:https://blog.csdn.net/chenKFKevin/article/details/62049060 来自:https://blog.csdn.net/
阅读全文
摘要:读取CSV(逗号分隔)文件到DataFrame,也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html 参数: filepath_or_buffer:str,pathlib。str,pathlib.Path
阅读全文
摘要:loc:通过行标签索引数据 iloc:通过行号索引行数据 ix:通过行标签或行号索引数据(基于loc和iloc的混合) 使用loc、iloc、ix索引第一行数据: loc: iloc: ix:
阅读全文