关键词检测工具

关键词检测工具，就是根据关键词百度搜搜搜狗等搜索引擎查询获取排名站点地址等相关信息的一个东西。当我接到这个case的时候，首先联想的是一道面试题，就是给你一个html页面让你检索出这个页面的关键信息，这个面试题是比较简单的，就是正则的匹配，因此我也想用正则去获取。不管三七二十一，首先实现再说

其实这个已经不是最初的那个版本了，最古老的那个版本改动面目全非了，这个其实就是四条线程

去读取html然后分析就这样实现了。

过程中遇到问题有

没有考虑清楚需求，页面分析正则维护难

View Code

 1 /// <summary>
 2         /// 根据标签名称获取Html
 3         /// </summary>
 4         /// <param name="TagName">标签名称</param>
 5         /// <param name="HTML">html</param>
 6         /// <returns>返回值列表</returns>
 7         public  List<string> GetHtmlTagByName(string TagName, string HTML)
 8         {
 9             HTML = Regex.Replace(HTML, @"<\s+", "<", RegexOptions.IgnoreCase);
10             HTML = Regex.Replace(HTML, @"\s+>", ">", RegexOptions.IgnoreCase);
11             HTML = Regex.Replace(HTML, @"</\s+", "</", RegexOptions.IgnoreCase);
12             List<string> TagList = new List<string>();
13             string Tag = string.Empty;
14             HTML = HTML.ToLower();
15             int TagLength = TagName.Length;
16             int StartTagLength = TagLength + 2;
17             int EndTagLength = TagLength + 3;
18             List<int> IndexList = new List<int>();
19             for (int i = 0; i < HTML.Length; i++)
20             {
21                 if (HTML[i] == '<')
22                 {
23                     if ((HTML.Length - i) >= StartTagLength)
24                     {//<div> | <div\s
25                         string TemTag = HTML.Substring(i, StartTagLength);
26                         if (TemTag == '<' + TagName + ' ' || TemTag == '<' + TagName + '>')
27                         {
28                             IndexList.Add(i);
29                         }
30                     }
31                     if ((HTML.Length - i) >= EndTagLength)
32                     {//</div>
33                         string TemTag = HTML.Substring(i, EndTagLength);
34                         if (TemTag == "</" + TagName + '>')
35                         {
36                             if (IndexList.Count > 0)
37                             {
38                                 int S = IndexList[IndexList.Count - 1];
39                                 IndexList.Remove(IndexList[IndexList.Count - 1]);//移除最后一个
40                                 TagList.Add(HTML.Substring(S, (i - S) + EndTagLength));
41                             }
42                         }
43                     }
44                 }
45             }
46             return TagList;
47         }

这就是一个简单的方法获取标签对之间的全部html 实现了所需要的工能，但是害怕稳定性出现问题，所以弃用

弃用之后重新考虑思路画出流程图

这样思路更加清晰了也考虑了配置的为题容易修改配置截图

做完配置以后其实就是考虑接口实现接口做出最终的版本

测试截图

整个过程中，我觉得自己出现的最大问题就是考虑问题角度问题，我因为没有做过就想着如何去实现，在做的过程中发现很多问题再去扩展最后代码相当混乱也许一个月后我自己去修改都不能完成了。以后一定要先考虑好架构(姑且这么说啊)，实现如果出现问题是可以解决的。

收获:从内部一步步往外扩展，不如从外部一步步往内部深入！学习思路和编程思想，积累经验。练习所学

posted @ 2013-01-07 11:31 妍珊阅读(1958) 评论(8) 编辑收藏举报

刷新页面返回顶部

宝贝@NO乖

关键词检测工具

公告