基于python的统计公报关键数据爬取 update
由于之前存在的难以辨别市本级,全市相关数据的原因,经过考虑采用 把含有关键词的字段全部提取进行人工辨别的方法
在其余部分不改变的情况下,更改test部分
def test(real_Title,real_Text): with open(real_Title, 'r') as f: for li in f: if "地区生产总值" in li: print(li) if "一般公共财政收入" in li: print(li) if "一般公共财政支出" in li: print(li) if "公共财政预算收入" in li: print(li) '''
print(real_Text) for l in real_Text: if "地区生产总值" in l: print(l) ''' '''
尚未解决的功能性问题:
1.自动爬取网址链接的问题尚未解决
2.希望能使用java写出界面,进行直接的选择写入excel!
尚未解决的算法性问题:
1.是否有更好的基于关键词的数据搜索方法有待改进