2009年5月31日

摘要: 网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey)Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3)第一章 导论 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成 表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点... 阅读全文

posted @ 2009-05-31 16:33 hesen 阅读(1114) 评论(1) 推荐(0) 编辑

摘要: 目前看重的工具有ecplise或者pb。ecplise看了将近一个礼拜,需要掌握的东西太多了,而手头的资料又太少 ,等待以后有机会再学了,对自己来说他确实很吸引人啊。PB学起来倒是比较快,比较有成就感。博客中国和这里都是用CSS来确定叶面格式,很巧的是自己又重新捡起去年就看过的一本书来温习。书名是XML实用培训教程。还有一本书几个SQL专家极力推荐的,是《XML宝典》,不过自己看了一下,是2002... 阅读全文

posted @ 2009-05-31 15:51 hesen 阅读(439) 评论(0) 推荐(0) 编辑

摘要: (转自:http://www.ibm.com/developerworks/cn/xml/x-wbdm/)2001 年 6 月 01 日不可否认,万维网是到目前为止世界上最丰富和最密集的信息来源。但是,它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发布的信息。在信息时代快速成长起来的万维网导致各种各... 阅读全文

posted @ 2009-05-31 15:08 hesen 阅读(854) 评论(0) 推荐(0) 编辑