项目日报(二)
今天进行项目的第二阶段,进项关键字的提取,本打算利用hanlp进行分词,将成果简介中的数据提取,可是在Python中安装pyhanlp之后运行老是报错
提示无法引入包,找不到Java路径,还根据教程下载了hanlp的资源包,放到pyhanlp的static路径下还是无法解决,折腾了一晚上还是没弄出来
所以选择使用TextRank 或者是TF-IDF方法进行分词了,等完成之后继续解决。
然后对国家标准行业代码进行了梳理,现在的国民经济行业代码一共有2个版本,GB/T 4754-2017 和GB/T 4754-2011 由于网上的数据几乎都是PDF或文本格式,为了符合要求,按照国民经济行业代码的结构进行还原(门类,大类,中类,小类)这样就便于查找了