摘要: 在搜索引擎的开发中,我们需要对网页的Html内容进行检索,难免的就需要对Html进行解析。拆分每一个节点并且获取节点间的内容。此文介绍两种C#解析Html的方法。第一种方法:用System.Net.WebClient下载Web Page存到本地文件或者String中,用正则表达式来分析。这个方法可以用在Web Crawler等需要分析很多Web Page的应用中。估计这也是大家最直接,最容易想到的一个方法。转自网上的一个实例:所有的href都抽取出来:Code<!--Code highlighting produced by Actipro CodeHighlighter (freewa 阅读全文
posted @ 2012-12-08 15:24 chinall 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 1.以OR开头+年的后两位+月的两位表示+五为流水号[O][R]/d{2}((0[1-9])|(1[0-2]))/d{5}2.大于○的double类型([1-9]+[.]?/d*)|(0[.]/d*)|3.不小于○的double类型/d+[.]?/d*4.大于○的整型[1-9]/d*5.不小于○的整型6.日期^(?:(?:(?:(?:1[6-9]|[2-9]/d)?(?:0[48]|[2468][048]|[13579][26])|(?:(?:16|[2468][048]|[3579][26])00)))(//|-|/.)(?:0?2/1(?:29))$)|(?:(?:1[6-9]|[2-9] 阅读全文
posted @ 2012-12-08 15:21 chinall 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 在前台使用JQuery和AJAX的时候经常会需要后台返回JSON数据,以前我的做法是直接拼成的,后来才知道.net3.5支持JSON了,今天特别做了几个例子方便不会的朋友。高手们就不要看了 Namespace: System.Runtime.Serialization.JsonAssembly: System.ServiceModel.Web (in System.ServiceModel.Web.dll)只支持.net3.5例1:Hashtable ht =new Hashtable();ht.Add("A","值1");ht.Add("B& 阅读全文
posted @ 2012-12-08 15:17 chinall 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 在正文抽取(正文提取)里一般会用到的正则,易尔译科技收集了一下,是C#版本的正文抽取正则表达式。欢迎大家补充。#region 相关正则表达式/// <summary>/// 去掉所有html标签/// </summary> private static readonly Regex FilterAll = new Regex(@"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?<lj>(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");])<a\s+[^>]*& 阅读全文
posted @ 2012-12-08 15:08 chinall 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 客户端ip:Request.ServerVariables.Get("Remote_Addr").ToString();客户端主机名:Request.ServerVariables.Get("Remote_Host").ToString();客户端浏览器IE:Request.Browser.Browser;客户端浏览器 版本号:Request.Browser.MajorVersion;//客户端操作系统:Request.Browser.Platform;服务器ip:Request.ServerVariables.Get("Local_Addr& 阅读全文
posted @ 2012-12-08 14:58 chinall 阅读(272) 评论(0) 推荐(0) 编辑