基于python的统计公报关键数据爬取 update

由于之前存在的难以辨别市本级,全市相关数据的原因,经过考虑采用 把含有关键词的字段全部提取进行人工辨别的方法

在其余部分不改变的情况下,更改test部分

def test(real_Title,real_Text):
    with open(real_Title, 'r') as f:
        for li in f:
           if "地区生产总值" in li:
               print(li)
           if "一般公共财政收入" in li:
               print(li)
           if "一般公共财政支出" in li:
               print(li)
           if "公共财政预算收入" in li:
               print(li)
           
        
        
    '''

   print(real_Text) for l in real_Text: if "地区生产总值" in l: print(l) ''' '''

尚未解决的功能性问题:

1.自动爬取网址链接的问题尚未解决

2.希望能使用java写出界面,进行直接的选择写入excel!

尚未解决的算法性问题:

1.是否有更好的基于关键词的数据搜索方法有待改进

 

posted @ 2017-11-15 21:12  pppeony  阅读(423)  评论(0编辑  收藏  举报