Notes | 学术前沿趋势分析

Task1. 论文数据统计

目标：自己Pandas用得很少，这个task主要练习Pandas基础。

学习Notes：

data = pd.DataFrame(data) #将list变为dataframe格式，方便使用pandas进行分析

data.shape #显示数据大小

data.head() #显示数据的前五行

for idx, line in enumerate(f): #遍历文档每一行，包括它的index

data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名

d = {col : d[col] for col in columns} #获取dataframe格式的d中指定的一些列

data["categories"].describe()

粗略统计论文的种类信息：

data["year"] = pd.to_datetime(data["update_date"]).dt.year 

#将update_date从例如2019-02-20的str变为datetime格式，并提取处year

data.reset_index(drop=True, inplace=True) #重新编号

data.merge(df_taxonomy, on="categories").query("group_name == @group_name") 
#使用 merge 函数，对于两个dataframe 共同的特征 categories 进行合并

【未完待续】

posted @ 2021-01-13 22:41 山竹小果阅读(562) 评论(2) 编辑收藏举报

刷新页面返回顶部