项目阶段总结
邮件查看器
接到邮件查看器的项目,已经近一星期,项目也已经正常展开,进行到项目中段,基本实现了邮件的抓取,存储与查看功能。
第一天:首先搜索,熟悉关于JSON,与JSOUP的相关知识内容。了解项目的具体要求,对项目的各个功能进行方法分析。准备account.json文件
第二天:目标实现邮箱的登录,因为要用到http协议,只能使用了网上找到的登录163邮箱的已经写好的方法
第三天:使用json解析account文件,得到邮箱登录的账户,密码。根据网上找到的方法,实现了收件箱内容的代码片段,包括发件人,收件人,发送时间,接收时间和邮件主题相关内容。下午使用JSOUP对该片段进行解析,可以抓取输出相关信息。分析邮件箱具体到每一封邮件内容的抓取方法:得到mid
第四天:根据mid,对收件箱的代码片段进行截取,获取每一封邮件的相关信息包括邮件内容一并提取。实现抓取内容的存储。考虑邮件的去重:
初步想法:所有抓取过的邮件mid组合成一个字符串,把该字符串写入文件中,每次抓取到mid的集合,遍历与字符串进行比较,得到未抓取过的邮件mid的集合,然后根据mid进行代码片段截取,抓取工作,从而得到相关信息并存储。然而,细想之下,该方法存在一定的问题,如果抓取到邮件存储之后,如果认为的删除文件之后,mid组成字符串的文件不会有相应的改变,如果再进行抓取,就会漏掉被删除的文件。
第五天:对去重方法进行改进,遍历文件存储目录的文件,获取mid组成set集合(考虑过使用list集合,理论上应该没有问题,但是考虑到认为复制文件的情况出现,使用了自动去重的set集合),然后对获取到的mid集合进行比较去重。
写查看方法,熟悉Linux。