python学习(二)
这几天脑子里一直在想一个应用,想以此来练习python。用一句话来概括这个应用的功能,大致表述是这样:自动采集全省各类公共文化机构网站上新发布的信息,并分类呈现。各类公共文化机构,是指公共图书馆、文化馆、博物馆。新发布的信息主要是指各个网站每天发表的新闻。把这些新闻的标题、链接和发布时间自动抽取出来,集中在自己的网站显示。
思路如下:
(1)建立一个公共文化机构网站的列表;
(2)针对每一个网站,确定要抽取的信息所在的页面网址;
(3)对每一个网面的源码进行分析,建立抽取对应网页信息的规则;
(4)按照规则,在对应网页上,抽取需要的信息;
(5)将抽取到的信息以某种形式保存下来;
(6)将保存下来的信息进行整理、发布。
概括来说,就是要在指定网页上抽取指定内容。以上这些功能,有款叫做“八爪鱼采集器”已经做得很人性化了。我们的目标是学习pathon,所以准备自己动手试试,看能做到什么程度。
第一步和第二步不存在什么问题,可以通过某中心网站或搜索引擎来完成。
工作量最大的部分应该是第三步。这里需要对第二步确定的页面逐个分析,每一条规则可以用正则表达表表示,最终形成一个规则表达式的列表,每一条规则表达式对应一个网站的指定页。由于大部分网站都有这样一个页面,上面有发布信息的列表;而我们的目的是取得这个信息列表中每一个标题所指向的链接中的内容。故这里应需要分成两项工作:一是将信息列表中的标题和对应的链接抽取出来;二是进入刚刚得到的链接,将其中的内容提取出来。
第四步可以自动处理,不需要人工干预。这里需要确定采取什么样的数据结构以保存抽取到的信息。
第五步需要确定保存信息的文件形式,是文本文件?XLS表格?还是数据库文件?
第六步是另外一项工作,重点是确定在什么样的平台,以什么样的界面,将数据文件内容显示出来。传统WEB,还是瀑布流,或者在微信公众平台?
----------------------------