2009年5月24日

摘要: 在该网站网址栏上输入javascript:alert(document.lastModified)IE5以上... ,此方法可以判断一个网页的最后更新时间,如果这个时间与现在的时间相同,说明是伪静态的,反之为静态的。 阅读全文

posted @ 2009-05-24 16:27 hesen 阅读(783) 评论(0) 推荐(0) 编辑

摘要: 好久没来博客园了,一直在忙着工作,学习。今天分享我封装的获取MSN好友信息,获取gmai.com、yahoo.cn、yahoo.com.cn、live.cn、live.com、hotmail.com邮箱联系人的类库。其实没什么技术含量,只是在工作时找了很久找到几个类库,为了用起来方便,就做成类库了。提供邮件群发功能。下面介绍下用法,很简单。Batch.Helper命名空间下有GmailHelper... 阅读全文

posted @ 2009-05-24 16:00 hesen 阅读(815) 评论(1) 推荐(0) 编辑

摘要: 相关软件点击下载登录的处理。因为有些网页数据需要登陆后才能提取。这里要使用ieHTTPHeaders来提取登录时的提交信息。抓取网页HtmlAgilityPack.HtmlDocumenthtmlDoc;if(!string.IsNullOrEmpty(登录URL)){htmlDoc=htmlWeb.Load(登录URL,提交的用户验证信息,获取数据的网页URL);}else{htmlDoc=ht... 阅读全文

posted @ 2009-05-24 15:57 hesen 阅读(1080) 评论(1) 推荐(0) 编辑

摘要: 本文是参照摩诘的Blog今天遇到这样一个问题,从政府网站中,根据一个关键数据KeyData,提取相关数据。这个问题可分为三部分解决:1)取得政府网站交互的方法;2)按照合适的方法,用HttpWebResponse,取得相关数据3)分析取回来的数据第一部分:获取网站交互信息,采用工具ieHTTPHeadersSetup.exe得到的数据如下:GET /search.asp?key=200600299... 阅读全文

posted @ 2009-05-24 15:52 hesen 阅读(844) 评论(0) 推荐(0) 编辑

摘要: 摘 要 文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。关键词 Web信息提取;DOM;XPath;XSLT;基于DOM的网页结构判断1 引言 Web信息的爆炸性增长,给我们带来了获取更多信息的机会,同时,也增加了在纷繁复杂... 阅读全文

posted @ 2009-05-24 15:50 hesen 阅读(1974) 评论(2) 推荐(0) 编辑

摘要: 1.网上信息抽取技术纵览(点击下载) Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3) 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务…&... 阅读全文

posted @ 2009-05-24 14:42 hesen 阅读(640) 评论(0) 推荐(0) 编辑