代码改变世界

Url小写替换工具开发笔记

2010-08-09 21:23  韩龙  阅读(1600)  评论(4编辑  收藏  举报

 

项目简介:应部门需求写了Url批量替换工具,当然稍微改动即可做成其他字符串的批量替换。功能并不复杂,有很多种实现方式(例如正则),值得记录的是开发过程中的设计和重构方式,可以简单借鉴或者以后项目的参考。

场景分析:

在此工具的开发过程中,遇到一些问题,有几处值得拿出来跟大家讨论一下的情景,因此整理了一下,感兴趣的可以跟帖讨论

文件中出现url的情况比较复杂,出现位置大致有以下几种情景:

1. http等开头的链接 例如: http://price.bitauto.com

2. 锚标签 例如 <a href="/user/detail.aspx?userid" target=_blank>

3. 文件源,以src为表现

例如:<img src="http://images.cnblogs.com/logo.gif"> 、<iframe src="ad.htm">

4. 服务器端链接 例如: <asp:HyperLink id="" NavigateUrl="" runat="server">

5. 转向 例如: Response.Redirect("error.aspx")

6. 配置文件 例如: <add name="errorpage" value="404.aspx">

7. 变量 例如: public const string HOME = "index.aspx";

                          var actionPage = "save.aspx";

但是链接并不是总是以直接的字符串形式出现,

有可能以变量的形式出现,例如: <a href="<%# Eval(Container, "Url").ToString()%>" target=_blank>

有时会将部分路径进行组合得到最终链接。例如:var searchpage = "search.aspx?keywords=" + keywords + "&searchtype=" + searchtype

因此工具在替换时进行了取舍。对情景1-5做了较好的判断,对情景67没有进行处理。

对情景1-5也只是替换了出现的字符串,对变量或者组合变量没有进行考虑。这些例外情况需要大家单独进行处理

有一种值得说明的情况是:类似于 img.bitauto.com这样的域名并没有进行处理。

因为其和对象引用的方式非常类似,例如: User.Role.Id img.bitauto.com 通过正则很难区分。

 

简单的代码重用:

 此工具需要两个基本功能:备份,小写替换。因此开始时直接定义了两个方法 Backup(string dir)LowercaseLink(string dir),开发完成后,查看了一下代码,发现一个问题:

即文件夹遍历,这两个方法都对文件夹进行了一次遍历,其代码是重复的(.Net虽好,但并不万能,例如文件夹的复制就没有实现。需要自己来开发。)。因此我在想有什么方法能够将遍历的代码只写一遍,后来发现BackupLowercaseLink这两个方法参数和返回值相同,因此想到了委托,代码如下:

public delegate void HandleMethod(string filepath);

public void Backup(string fileName){
     //此处省略若干字
}
public void LowercaseLink(string filepath){
   //此处省略若干字
}
public void Traversal(string dirName,HandleMethod method){
  string[] subDirs = Directory.GetDirectories(dirName);
  foreach (string subDir in subDirs){
    Traversal(subDir, method)
  }
string[] files = Directory.GetFiles(dirName); foreach (string file in files){   method.Invoke(file); } }

调用如下:

Traversal(selectedFolder, Backup);

Traversal(selectedFolder, LowercaseLink);

Traversal的第二个参数为委托类型(相当于函数指针),调用时需要将实际的方法名传递过去,然后通过Invoke来触发。

      

业务处理和表现层分离:

在第一版完成后,基本功能已经实现,能实现将文本中的所有链接的批量替换。此时所有的代码都放在了Form1.cs文件中,只是通过不同的方法和属性来区分。大致代码如下:

public bool IsBackup;
public delegate void HandleMethod(string filepath);
public List<string> linkPatterns = new List<string>();
public string selectedFolder = string.Empty;
private void btnStart_Click(object sender, EventArgs e){}
private void btnSelectFolder_Click(object sender, EventArgs e){}

//方法代码
public void Backup(string fileName){}
public void Traversal(string dirName,HandleMethod method){}
public void InitPattern(){}
public void LowercaseLink(string filepath){}

在对代码进行了一些考虑以后,发现下面的四个方法和上面的两个方法是不同的。上面是界面代码的事件响应(属于表现层),下面的才是真正的业务处理(属于业务处理层)。后来又添加一次操作状态和信息的响应,此时仍然堆积在Form1中,代码体积开始变得庞大和混乱。 因此对代码进行了分离。

分离后代码如下:

public class LowercaseManager{
    public ProjectStatus DoTask(LowercaseManagerStartupInfo startInfo){}
    public bool CheckBackup(string folder){};
    public void TraversalBackup(string dirName, LowercaseManagerStartupInfo startInfo){};
    public void Traversal(string dirName, HandleMethod method){};
    public void LowercaseLink(string filepath){}
}

public class LowercaseManagerStartupInfo{
    public bool IsBackup;
    public string BackupFolder;
    public string ProjectFolder;
}

public enum ProjectStatus{
   NoProject,
   ProjectFolderNotExist,
   NeedBackupFolder,
   Success
}

public partial class Form1 : Form {

    public const string NEED_BACKUPFLODER = "请选择备份文件夹";
    public const string MSG_TITLE = "提示";
    public const string NEED_PROJECT = "请选择要替换的项目文件夹";
    public const string PROJECT_FOLDER_NOT_EXIST = "项目文件夹不存在";
    public const string SUCCESS = "替换成功";

 
    private void btnStart_Click(object sender, EventArgs e){
         private void btnSelectFolder_Click(object sender, EventArgs e)
         private void btnBackup_Click(object sender, EventArgs e)
         private void cbIsBackup_CheckedChanged(object sender, EventArgs e)
    }
}

 这还有一个意外,刚开始时,并没有想到使用LowercaseManagerStartupInfo这个参数类,而是将参数放到了LowercaseManager里面,后来想到调用线程类时ThreadProcess等类都将入口参数变为了类xxxxStartInfo,因此这里简单的模仿了一下,连名字都抄了过来((_).在面向过程的开发中,是以函数作为开发单元;而在面向对象的开发中,是以类作为开发单元的。

扩展与可配置化

 截止此时,代码已经开发完毕。下午再次浏览代码时,突然想到,如果要实现将匹配的字符串替换为大写或者替换为其他要求(首字母大写,统一替换为xxx等),这时应该怎么做。

最开始的想法是直接在public void LowercaseLink(string filepath)方法中添加 switch来实现。代码可能如下:

foreach (string pattern in linkPatterns){

    MatchCollection urls = Regex.Matches(fileContent, pattern);

    foreach (Match url in urls){
        switch(replaceType){
            case "lower":
                  fileBuilder.Replace(url.Value, url.Value.ToLower());
            break;
            case "upper":
                 fileBuilder.Replace(url.Value, url.Value.ToUpper());
            break; 
            ...
      }
   }
}                

 

但是这样的设计感觉并不是很好,同时不利于配置,扩展起来也不是特别严谨和清晰。忘了哪位大人物曾经说过:“当你看到switch分支过多的时候,可以想想策略,命令等模式”。呵呵,策略模式来敲门了(那些大人物如果看到实现的并不是策略模式的话,别敲我头就好了)于是实现如下:

 

public interface IReplace{
    string ToDest(string src);
}

public class ReplaceFactory{
    public static IReplace lower = new LowerReplace();
    public static IReplace CreateInstance(){
        //配置return (IReplace)Assembly.Load(path).CreateInstance(className);
        return lower;
    }
}

public class LowerReplace : IReplace
{  }
public class UpperReplace : IReplace
{  }        

 注意红色那行代码,当我们需要替换为不同的目的字符时,那么创建不同类的示例即可(path,className从配置文件加载)。如果没有你要的类,则需要继承 IReplace接口,建立自己的类。这样便可规范类,方便管理和扩展,同时实现了可配置化

此时就会遇到一个问题:原来我们的类叫做:LowercaseManager和LowercaseManagerStartupInfo,只是为替换小写使用,现在可替换为不同的目标字符串,所以需要来类名已经不太合适。此时对类名进行了更改:ReplaceManager和ReplaceManagerStartupInfo

在配置方面新增加了一个类ConfigHelper.cs辅助读取配置文件。

 

设想(以下出现的代码暂时没写,只是预想)

至此,算是做了一些代码重码。在进行简单的测试时,出现了一些问题:

1.       有些文件不需要进行过滤,例如扩展名为exedll

2.       类似<a href="<%# Eval(Container, "Url")%>" > 类似的并没有考虑。

3.       原来的正则表达式区分了大小写。

因此对程序进行简单的更改。

针对问题1 ,直接在代码里进行了扩展名的判断。

public List<string> exts;
exts = new List<string>();
exts.Add(".cs");
exts.Add(".html"); …

if (exts.Contains(Path.GetExtension(filepath).ToLower())) //对指定文件进行替换
{ …}

但是如果做成一个简单过滤器似乎是更好的选择,代码可能如下:

public interface IFilter{
    string DoFilter(string input);
}
public class FileFilter : IFilter

针对问题2

偷了个懒,直接将代码放到了LowerReplace里面,对包含eval,bind等关键字的情况进行了判断,包含此关键字的则不进行替换。实际上不进行替换也是替换的一种,也可以做成类,叫做NoReplace,实现可能如下:

public class NoReplace : IReplace

这样连同我们已经实现的替换类,现在已经有很多了:

public class NoReplace : IReplace
public class UpperReplace : IReplace
public class LowerReplace : IReplace

 以后可能更多。这时就会出现一个问题,在使用ReplaceFactory.CreateInstance()进行Replace实例创建时,到底要创建哪个类。配置文件只能解决单一类的情况,但是现在要根据字符串包含的某些字符或者其他特征判断后,动态的进行创建。

当然可以在Factory类型里面进行判断,也可以建立单独类 public class ReplaceRouter / ReplaceMap 将其路由到正确的Replace类。

 

针对问题3这个很好解决,忽略大小写即可。

 

一路走来,就会发现,其实类的设计与架构并不是一开始就能确定的,而是随着问题的不断深入,设计的不断迭代而逐步成型的。这需要时间,精力和经验,更需要不断的自我否定,对代码艺术的不断追求,否则所谓的重构,设计只能是空谈。

当然,现在的代码也未尽善尽美,没有其他办法,只有继续学习,不断超越。 

 源码下载