上一页 1 2 3 4 5 6 ··· 9 下一页

2009年5月31日

摘要: (转自:http://www.ibm.com/developerworks/cn/xml/x-wbdm/)2001 年 6 月 01 日不可否认,万维网是到目前为止世界上最丰富和最密集的信息来源。但是,它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发布的信息。在信息时代快速成长起来的万维网导致各种各... 阅读全文

posted @ 2009-05-31 15:08 hesen 阅读(854) 评论(0) 推荐(0) 编辑

2009年5月26日

摘要: 在没有做题目中所述的内容的时候,感觉这应该是很简单的东西,但是当真正开始做的时候却发现,有很多问题现在在这里写出来,供和我一样水平不高的参考一下。在写本文之前参照了一下文章欢迎使用CSDN论坛阅读器 : CSDN Reader(附全部源代码) 最新版本:20070212 http://www.cnblogs.com/feiyun0112/archive/2006/09/20/509783.html... 阅读全文

posted @ 2009-05-26 21:10 hesen 阅读(677) 评论(0) 推荐(0) 编辑

2009年5月25日

摘要: class Attribute : ICloneable { private string m_name; private string m_value; private char m_delim; public Attribute(string name, string value, char delim) { m_name = name; m_value = value; m_delim = ... 阅读全文

posted @ 2009-05-25 21:31 hesen 阅读(1051) 评论(1) 推荐(0) 编辑

摘要: 功能: 将Html原码解析成IHTMLDocumet2对象,然后将IHTMLDocumet2转换成IHTMLDocumet3,使用DOMNode,将html显示成一棵树。此解析不执行任何脚本,不从网上下载任何资料,是一个纯文本的解析。 (方法Parse(string str) 一个轻量级Parsing实现。这个代码不会从网上下载任何资料,也不会执行任何脚本,纯属Parsing。Parsing是通过... 阅读全文

posted @ 2009-05-25 21:26 hesen 阅读(511) 评论(0) 推荐(0) 编辑

2009年5月24日

摘要: 在该网站网址栏上输入javascript:alert(document.lastModified)IE5以上... ,此方法可以判断一个网页的最后更新时间,如果这个时间与现在的时间相同,说明是伪静态的,反之为静态的。 阅读全文

posted @ 2009-05-24 16:27 hesen 阅读(783) 评论(0) 推荐(0) 编辑

摘要: 好久没来博客园了,一直在忙着工作,学习。今天分享我封装的获取MSN好友信息,获取gmai.com、yahoo.cn、yahoo.com.cn、live.cn、live.com、hotmail.com邮箱联系人的类库。其实没什么技术含量,只是在工作时找了很久找到几个类库,为了用起来方便,就做成类库了。提供邮件群发功能。下面介绍下用法,很简单。Batch.Helper命名空间下有GmailHelper... 阅读全文

posted @ 2009-05-24 16:00 hesen 阅读(815) 评论(1) 推荐(0) 编辑

摘要: 相关软件点击下载登录的处理。因为有些网页数据需要登陆后才能提取。这里要使用ieHTTPHeaders来提取登录时的提交信息。抓取网页HtmlAgilityPack.HtmlDocumenthtmlDoc;if(!string.IsNullOrEmpty(登录URL)){htmlDoc=htmlWeb.Load(登录URL,提交的用户验证信息,获取数据的网页URL);}else{htmlDoc=ht... 阅读全文

posted @ 2009-05-24 15:57 hesen 阅读(1080) 评论(1) 推荐(0) 编辑

摘要: 本文是参照摩诘的Blog今天遇到这样一个问题,从政府网站中,根据一个关键数据KeyData,提取相关数据。这个问题可分为三部分解决:1)取得政府网站交互的方法;2)按照合适的方法,用HttpWebResponse,取得相关数据3)分析取回来的数据第一部分:获取网站交互信息,采用工具ieHTTPHeadersSetup.exe得到的数据如下:GET /search.asp?key=200600299... 阅读全文

posted @ 2009-05-24 15:52 hesen 阅读(844) 评论(0) 推荐(0) 编辑

摘要: 摘 要 文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。关键词 Web信息提取;DOM;XPath;XSLT;基于DOM的网页结构判断1 引言 Web信息的爆炸性增长,给我们带来了获取更多信息的机会,同时,也增加了在纷繁复杂... 阅读全文

posted @ 2009-05-24 15:50 hesen 阅读(1974) 评论(2) 推荐(0) 编辑

摘要: 1.网上信息抽取技术纵览(点击下载) Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3) 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务…&... 阅读全文

posted @ 2009-05-24 14:42 hesen 阅读(640) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 9 下一页