行业代码补充

很简陋。。。就这样子吧。。

只根据大类来编码,不区分中小类了。。。

国民经济行业分类(大类)里面有敏感词,贴不出来,要的话去这篇文章下载吧:中国国民经济行业分类数据下载(含爬取代码) - 田智凯 - 博客园 (cnblogs.com)

我是直接模糊查询了,因为给出的行业不规范。

import pandas as pd
import difflib

df = pd.read_csv("国民经济行业分类(大类).csv",encoding= 'utf-8',sep='\t')
df2 = pd.read_csv("../关键词提取/t2_add.csv",encoding= 'utf-8')
# 将dataframe的某一列转换为list
code_list = df['code'].values.tolist()
name_list = df['name'].values.tolist()
t2_name = df2['行业'].values.tolist()
print('t2_name.len',len(t2_name))
res = []    # 行业代码结果
res_name=[]     # 行业标准名称结果
for i in range(len(t2_name)):
    # 模糊查询
    res1 = difflib.get_close_matches(t2_name[i], name_list, 1, cutoff=0.6)
    if len(res1) == 0:
        res.append('')
        res_name.append('')
    else:
        res_name.append(res1[0])
        for j in range(len(name_list)):
            # 这里需要注意一下是res1[0],如果是res1是取不出来的,res1是一个数组
            if res1[0] == name_list[j]:
                res.append(code_list[j])

print('res.len',len(res))
print(res)
df2['行业代码'] = res
df2['行业标准字段']=res_name
df2.to_csv('t2_add.csv',index=False)

结果:

 

 

参考:

Python List 高性能模糊搜索,模糊搜索优化_python 数组 筛选 模糊查找-CSDN博客

pandas学习笔记—dataframe与list相互转化_dataframe转list-CSDN博客

posted on 2024-04-08 16:20  201812  阅读(9)  评论(0编辑  收藏  举报