项目进展日志

   项目:邮件采集器

  进行了邮件采集器在Linux系统下的运行测试,已经实现的功能,邮件采集,去重,储存,简单查看。

   去重方法:

  经过与项目经理的沟通,发现去重方法,存在理解偏差。对去重方法进行修改:首先把所有采集的mid组成由特殊字符连接成的字符串,写入单独的文件中,每次运行采集器,都会从文件中读取已经经过采集的mid的字符串str,判断当前抓取到的mid是否在str中,如果存在则移除,若不存在,则把该mid存入新的字符串newstr中,去重结束后,把新得到的newstr添加写入str文件中,用到的方法是输出流的append方法。注:可以把mid继续存入str中,然后写入,但是考虑到str可能会很大,每次读写占用资源,所以考虑写入的时候只添加写入不同的部分。

  

posted @ 2016-08-16 20:46  唐枫  阅读(275)  评论(0编辑  收藏  举报