Pandas 是处理数据的最佳库之一

Pandas 是处理数据的最佳库之一

使用 Pandas 的基本功能

使用金融工具,有必要处理收集在表格、列表和其他数组中的大量信息。 “pandas”库是最强大的数据处理工具之一,它允许您执行数学运算、排序、分组、连接、划分、合并等等。

在本文中,我想通过一个文件示例展示 pandas 的主要功能,该文件包含来自 S&P500 指数的股票信息,该文件来自 Kaggle 资源 .

import pandas as pd # 这是安装库后开始的内容

Photo by 布雷特乔丹 on 不飞溅

要打开文件,请使用“pd.read_csv('')”函数。值得注意的是,在 pandas 的帮助下,您不仅可以打开 CSV 文件,还可以打开 XLSX、TXT、org、stata、HTML、JSON 等等。也就是说,只有通过第一个动作,您才能看到 pandas 的能力很强。

 stock_info = pd.read_csv('data_post_pandas/sp500_companies.csv') # 不要忘记使用你自己的文件路径

接下来,我们检查函数是否正确读取了所有内容。

 stock_info.columns  
 股票信息.head  
 股票信息。尾巴  
 stock_info.shape  
 出局: (493, 18)

要查看文件中显示的代码列表,您可以使用以下代码:

 列表(股票信息 ['符号'])。

因此,检查数据数组的所有列。

检查所选列中唯一值的数量。例如,我们的文件包含 11 个独特的部门和 113 个行业。顺便说一句,接下来,我们将看看如何通过同时按部门和行业对数据进行分组来计算值的数量。

 stock_info['Sector'].nunique()  
 stock_info['行业'].nunique()

使用 pandas 库中的 .loc 函数,可以从数据数组中选择多个元素。

例如,我将展示几种方法:

 stock_info.loc[0]['Longbusinesssummary'] #获取列表中第一家公司的业务描述,即Apple。 出去:  
 'Apple Inc. 在全球范围内设计、制造和销售智能手机、个人电脑、平板电脑、可穿戴设备和配件。它还销售各种相关服务。此外,该公司还提供 iPhone,一系列...  
 ... 网络运营商、批发商、零售商和经销商。 Apple Inc. 成立于 1977 年,总部位于加利福尼亚州库比蒂诺。 stock_info.iloc[2,1] # 从 .loc 函数中的指定位置,我们获取这些索引下的数据。  
 出去:  
 '谷歌'

您可以通过指定表格中的特定代码来选择整行:

 stock_info.loc[stock_info['Symbol'] == 'AAPL']  
 出去:

.loc[…[‘column_name’] == ‘ ’]

如果我们知道我们的数据集有由数值组成的数据,那么 stock_info.describe() 可以完美地描述数据中的主要指标,例如平均值、最大值、最小值、百分位数、计数和标准差。

 stock_info.describe()  
 出去:

.describe()

要对列数进行排序,您可以使用与切片列表或行时相同的基本功能。

示例:stock_info[['Symbol', 'Sector', 'Currentprice']]

或者,要创建具有不同列顺序的新数据框,您可以编写:

 stock_cols = 列表(stock_info.columns) stock_info_modified = stock_cols[0:2] + stock_cols[5:7] + [stock_cols[-2]] stock_info[stock_info_modified].head()  
 出去:

new_df = df[0:2] + df[5] + df[-1]

对公司进行排序的最佳方法之一是使用 .loc.page.containers 功能。在我们的示例中,我们选择了所有在其业务描述中包含“技术”一词的公司。

 stock_info.loc[stock_info['Longbusinesssummary'].str.contains('technology')].head(3)

或者,例如,我们需要从大量数据中选择涉及区块链技术和加密市场的公司。按部门或行业排序是行不通的,因为公司可以从事完全不同的业务,但同时在描述中指出他们参与了区块链的开发。在我们的示例中,社交网络公司 Twitter 在其描述中完全使用了比特币,这可能会自动引起分析师的兴趣。

 stock_info.loc[stock_info['Longbusinesssummary'].str.contains('bitcoin')].head(3)

df.loc[df[‘column_name’]].str.contains(‘’)

那些是'groupby'。一个可以让你快速计算平均值、总和、数字的工具

 库存信息['计数'] = 1  
 stock_info.groupby(['Sector']).count()['count']  
 stock_info.groupby(['Sector', 'Industry']).count()['count']  
 出去:

df.groupby([‘column_name’]).count()

您还可以使用“groupby”选择一列并同时按另一列排序。在我们的示例中,按行业分组,按收入增长排序。

 stock_info.groupby(['Sector']).mean().sort_values('Revenuegrowth', ascending=False)  
 出去:

df.groupby([‘col_name’]).mean().sort_values(‘col_name’)

希望对您有所帮助。函数可以用作处理数据数组的备忘单。

然后我们继续讨论机器学习的元素。我们将使用各种方法对数据进行分类、构建​​回归和聚类

敬请关注…

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/27246/00171110

posted @ 2022-09-11 10:01  哈哈哈来了啊啊啊  阅读(120)  评论(0编辑  收藏  举报