Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc

Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc

 

1俩个问题::识别垃圾文件与清理策略1

1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc manainputmethodacc1

2如何识别垃圾文件2

2.1. 体积过小文件2

2.2. 过大文件2

2.3. 清理非文档类型(doc docx txt html )的文件2

2.4. 转换文件类型以及索引html即可2

2.5. 清理重复文件(此结果不能加入指纹库)2

2.6. 非本类别垃圾文件2

3误删除的文件专门集中放在xx_manu文件夹中,人工处理2

4垃圾图片文件指纹库3

4.1. 根据垃圾文件指纹库(模式结果固化)3

4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)3

5人工识别垃圾图片策略3

6清理策略3

7大概每年doc文档的规模300M3

8Code3

8.1. 文件去重4

8.2. 生成垃圾文件指纹库(by Md54

 

 

 

1. 俩个问题::识别垃圾文件与清理策略

 

1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc manainputmethodacc

作者:: 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com

转载请注明来源: http://blog.csdn.net/attilax

 

2. 如何识别垃圾文件

2.1. 体积过小文件

2.2. 过大文件

 

2.3. 清理非文档类型(doc docx txt html )的文件

Pic(gif,jpg,bmp,gif)

Js 

2.4. 转换文件类型以及索引html即可

2.5.  清理重复文件(此结果不能加入指纹库)

2.6. 非本类别垃圾文件

搜索×,按照扩展名分组排序

3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理

 

4. 垃圾图片文件指纹库

4.1. 根据垃圾文件指纹库(模式结果固化)

4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)

 

5. 人工识别垃圾图片策略

不好的isho

不能likepic

误删除的文件专门集中放在isho_manu文件夹中,人工处理

 

 

 

6. 清理策略

生成清理脚本(或者直接java程序模式)

移动到制定文件夹(推荐)

 

 

7. 大概每年doc文档的规模300M

8. Code

AtibrowPrj

public class ClrerPicClrer extends ClrerAbs {

 

 

public static void main(String[] args) {

ClrerPicClrer c=new ClrerPicClrer();

c.dir="d:\\ati\\isheo";

//c.GabFileRecongers.add(new NoPicReconer());

tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();

ClrerPartImp.dir=c.dir;

ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";

c.IClrerParts.add(ClrerPartImp);

tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();

tmsc.dir=c.dir;

tmsc.targetDir="d:/ati/tooMinSize_files";

c.IClrerParts.add(tmsc);

 

c.traveDir(c.dir);

System.out.println("--f");

}

 

 

 

8.1. 文件去重

DeduliAbs_ByMoveToNewFolder.java

 

8.2. 生成垃圾文件指纹库(by Md5

 com.attilax.clr.ClrByMd5  -gene -output_file "d:\ati\isho_gabFileMd5.txt-dir "d:\ati\gabFilesFingers"

 

 

 

posted @ 2015-12-17 18:30  attilaxAti  阅读(36)  评论(0编辑  收藏  举报