Notes | 学术前沿趋势分析
Task1. 论文数据统计
目标:自己Pandas用得很少,这个task主要练习Pandas基础。
学习Notes:
data = pd.DataFrame(data) #将list变为dataframe格式,方便使用pandas进行分析
|
data.shape #显示数据大小
|
data.head() #显示数据的前五行
|
for idx, line in enumerate(f): #遍历文档每一行,包括它的index
|
data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名
|
d = {col : d[col] for col in columns} #获取dataframe格式的d中指定的一些列
|
data["categories"].describe()
粗略统计论文的种类信息:
|
data["year"] = pd.to_datetime(data["update_date"]).dt.year
|
data.reset_index(drop=True, inplace=True) #重新编号
|
data.merge(df_taxonomy, on="categories").query("group_name == @group_name")
|
【未完待续】