hesen - 博客园

基于 Web 的数据挖掘 (自动抽取用 HTML、XML 和 Java 编写的信息)

摘要： (转自:http://www.ibm.com/developerworks/cn/xml/x-wbdm/)2001 年 6 月 01 日不可否认，万维网是到目前为止世界上最丰富和最密集的信息来源。但是，它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发布的信息。在信息时代快速成长起来的万维网导致各种各... 阅读全文

posted @ 2009-05-31 15:08 hesen 阅读(894) 评论(0) 推荐(0)

转 c# 模拟Asp.net页面中的某个按钮的点击，向web服务器发出请求

摘要：在没有做题目中所述的内容的时候，感觉这应该是很简单的东西，但是当真正开始做的时候却发现，有很多问题现在在这里写出来，供和我一样水平不高的参考一下。在写本文之前参照了一下文章欢迎使用CSDN论坛阅读器 : CSDN Reader(附全部源代码) 最新版本：20070212 http://www.cnblogs.com/feiyun0112/archive/2006/09/20/509783.html... 阅读全文

posted @ 2009-05-26 21:10 hesen 阅读(682) 评论(0) 推荐(0)

C# html分析

摘要： class Attribute : ICloneable { private string m_name; private string m_value; private char m_delim; public Attribute(string name, string value, char delim) { m_name = name; m_value = value; m_delim = ... 阅读全文

posted @ 2009-05-25 21:31 hesen 阅读(1069) 评论(1) 推荐(0)

将Html原码解析成IHTMLDocumet对象,然后使用DOMNode将html显示成一棵树（转载

摘要：功能：将Html原码解析成IHTMLDocumet2对象，然后将IHTMLDocumet2转换成IHTMLDocumet3，使用DOMNode,将html显示成一棵树。此解析不执行任何脚本，不从网上下载任何资料，是一个纯文本的解析。 (方法Parse(string str) 一个轻量级Parsing实现。这个代码不会从网上下载任何资料，也不会执行任何脚本，纯属Parsing。Parsing是通过... 阅读全文

posted @ 2009-05-25 21:26 hesen 阅读(515) 评论(0) 推荐(0)

查看网页更新时间和判断网页是否伪静态的方法（转）

摘要：在该网站网址栏上输入javascript:alert(document.lastModified)IE5以上... ，此方法可以判断一个网页的最后更新时间，如果这个时间与现在的时间相同，说明是伪静态的，反之为静态的。阅读全文

posted @ 2009-05-24 16:27 hesen 阅读(834) 评论(0) 推荐(0)

针对SNS获取MSN好友、各大邮箱联系人，邮件群发解决方案　（转）

摘要：好久没来博客园了，一直在忙着工作，学习。今天分享我封装的获取MSN好友信息，获取gmai.com、yahoo.cn、yahoo.com.cn、live.cn、live.com、hotmail.com邮箱联系人的类库。其实没什么技术含量，只是在工作时找了很久找到几个类库，为了用起来方便，就做成类库了。提供邮件群发功能。下面介绍下用法，很简单。Batch.Helper命名空间下有GmailHelper... 阅读全文

posted @ 2009-05-24 16:00 hesen 阅读(860) 评论(1) 推荐(0)

使用HtmlAgilityPack批量抓取网页数据

摘要：相关软件点击下载登录的处理。因为有些网页数据需要登陆后才能提取。这里要使用ieHTTPHeaders来提取登录时的提交信息。抓取网页HtmlAgilityPack.HtmlDocumenthtmlDoc;if(!string.IsNullOrEmpty(登录URL)){htmlDoc=htmlWeb.Load(登录URL,提交的用户验证信息,获取数据的网页URL);}else{htmlDoc=ht... 阅读全文

posted @ 2009-05-24 15:57 hesen 阅读(1086) 评论(1) 推荐(0)

自动提取网页的信息，并分析之 ()

摘要：本文是参照摩诘的Blog今天遇到这样一个问题，从政府网站中，根据一个关键数据KeyData，提取相关数据。这个问题可分为三部分解决：1）取得政府网站交互的方法；2）按照合适的方法，用HttpWebResponse，取得相关数据3）分析取回来的数据第一部分：获取网站交互信息，采用工具ieHTTPHeadersSetup.exe得到的数据如下：GET /search.asp?key=200600299... 阅读全文

posted @ 2009-05-24 15:52 hesen 阅读(860) 评论(0) 推荐(0)

基于DOM的Web信息提取方法 (转)

摘要：摘要文章提出一种基于DOM的Web信息提取方法，通过归纳学习获得被提取信息的定位路径，利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式，根据网页元素与DOM节点对应关系，判断所获得信息源是否适用于已有提取模式。关键词 Web信息提取；DOM；XPath；XSLT；基于DOM的网页结构判断1 引言 Web信息的爆炸性增长，给我们带来了获取更多信息的机会，同时，也增加了在纷繁复杂... 阅读全文

posted @ 2009-05-24 15:50 hesen 阅读(2074) 评论(2) 推荐(0)

一堆信息抽取的资料文档（提供下载链接）(转)

摘要： 1.网上信息抽取技术纵览（点击下载） Line Eikvil 原著（1999.7）陈鸿标译 (2003.3) 信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务…&... 阅读全文

posted @ 2009-05-24 14:42 hesen 阅读(654) 评论(0) 推荐(0)