摘要: 程序功能大概就是爬取每个网页中的图片,并根据标题,分文件保存至指定目录,使用threading实现多线程。 主要流程为每访问一个网页,将此网页中的图片链接依次放入队列,根据图片数量依次开启下载线程,传入队列和编号,然后启动线程开始下载,主线程查询当前正在活动的线程数量,当数量为1的时候,即只剩主线程 阅读全文
posted @ 2016-06-04 23:14 Thkeer 阅读(9278) 评论(0) 推荐(0) 编辑
摘要: 写这个程序是因为校园网公告栏时不时会有学术报告,讲座之类的信息发布,但这类信息往往发布在讲座的前一天,以至于丢失很多重要消息。同时公告栏里也会发布一些跟学生无关的内容,比如工会主席会议啥的。 主要遇到的困难时对中文的正则匹配问题。(比如通过第一次正则可以提取到一个页面内的所有中文标题,第二次正则从这 阅读全文
posted @ 2016-06-04 22:51 Thkeer 阅读(2061) 评论(0) 推荐(0) 编辑