Notes | 学术前沿趋势分析

[学习资料github]

 

Task1. 论文数据统计

目标:自己Pandas用得很少,这个task主要练习Pandas基础

学习Notes:

data = pd.DataFrame(data) #将list变为dataframe格式,方便使用pandas进行分析
data.shape #显示数据大小
data.head() #显示数据的前五行
for idx, line in enumerate(f): #遍历文档每一行,包括它的index
data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名
d = {col : d[col] for col in columns} #获取dataframe格式的d中指定的一些列
data["categories"].describe() 

粗略统计论文的种类信息:

  • count:一列数据的元素个数;
  • unique:一列数据中元素的种类;
  • top:一列数据中出现频率最高的元素;
  • freq:一列数据中出现频率最高的元素的个数;
data["year"] = pd.to_datetime(data["update_date"]).dt.year 

#将update_date从例如2019-02-20的str变为datetime格式,并提取处year
data.reset_index(drop=True, inplace=True) #重新编号
data.merge(df_taxonomy, on="categories").query("group_name == @group_name") 
#使用 merge 函数,对于两个dataframe 共同的特征 categories 进行合并

 

【未完待续】

posted @ 2021-01-13 22:41  山竹小果  阅读(562)  评论(2编辑  收藏  举报