Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc
Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc
1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)1
2.3. 清理非文档类型(doc docx txt html )的文件2
3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理2
4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)3
1. 俩个问题::识别垃圾文件与清理策略
1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)
作者:: 老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com
转载请注明来源: http://blog.csdn.net/attilax
2. 如何识别垃圾文件
2.1. 体积过小文件
2.2. 过大文件
2.3. 清理非文档类型(doc docx txt html )的文件
Pic(gif,jpg,bmp,gif)
Js
2.4. 转换文件类型以及索引html即可
2.5. 清理重复文件(此结果不能加入指纹库)
2.6. 非本类别垃圾文件
搜索×,按照扩展名分组排序
3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理
4. 垃圾图片文件指纹库
4.1. 根据垃圾文件指纹库(模式结果固化)
4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)
5. 人工识别垃圾图片策略
不好的isho
不能like的pic
误删除的文件专门集中放在isho_manu文件夹中,人工处理
6. 清理策略
生成清理脚本(或者直接java程序模式)
移动到制定文件夹(推荐)
7. 大概每年doc文档的规模300M
8. Code
AtibrowPrj
public class ClrerPicClrer extends ClrerAbs {
public static void main(String[] args) {
ClrerPicClrer c=new ClrerPicClrer();
c.dir="d:\\ati\\isheo";
//c.GabFileRecongers.add(new NoPicReconer());
tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();
ClrerPartImp.dir=c.dir;
ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";
c.IClrerParts.add(ClrerPartImp);
tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();
tmsc.dir=c.dir;
tmsc.targetDir="d:/ati/tooMinSize_files";
c.IClrerParts.add(tmsc);
c.traveDir(c.dir);
System.out.println("--f");
}
8.1. 文件去重
DeduliAbs_ByMoveToNewFolder.java
8.2. 生成垃圾文件指纹库(by Md5)
com.attilax.clr.ClrByMd5 -gene -output_file "d:\ati\isho_gabFileMd5.txt" -dir "d:\ati\gabFilesFingers"