行业代码补充
很简陋。。。就这样子吧。。
只根据大类来编码,不区分中小类了。。。
国民经济行业分类(大类)里面有敏感词,贴不出来,要的话去这篇文章下载吧:中国国民经济行业分类数据下载(含爬取代码) - 田智凯 - 博客园 (cnblogs.com)
我是直接模糊查询了,因为给出的行业不规范。
import pandas as pd import difflib df = pd.read_csv("国民经济行业分类(大类).csv",encoding= 'utf-8',sep='\t') df2 = pd.read_csv("../关键词提取/t2_add.csv",encoding= 'utf-8') # 将dataframe的某一列转换为list code_list = df['code'].values.tolist() name_list = df['name'].values.tolist() t2_name = df2['行业'].values.tolist() print('t2_name.len',len(t2_name)) res = [] # 行业代码结果 res_name=[] # 行业标准名称结果 for i in range(len(t2_name)): # 模糊查询 res1 = difflib.get_close_matches(t2_name[i], name_list, 1, cutoff=0.6) if len(res1) == 0: res.append('') res_name.append('') else: res_name.append(res1[0]) for j in range(len(name_list)): # 这里需要注意一下是res1[0],如果是res1是取不出来的,res1是一个数组 if res1[0] == name_list[j]: res.append(code_list[j]) print('res.len',len(res)) print(res) df2['行业代码'] = res df2['行业标准字段']=res_name df2.to_csv('t2_add.csv',index=False)
结果:
参考: