刺猬的温驯 - 博客园

HTML 資訊汲取（下篇） - TagSoup 輸出 namespace 問題的解決方案

摘要： Namespace 問題在上一篇文章『HTML 資訊汲取（中篇） - Default namespace 問題』中提到：在 XPath 中，沒有所謂 default namespace (預設命名空間)。若 XPath 路徑未使用 prefix (前置字符) 指明 namespace，則其對應的 namespace 為 empty namespace (空命名空間)。因此，若在 XML 文件中定義了 default namespace，則所有的標籤必定都歸屬於某個不為空的 namespace。此時，未指明 namespace 的 XPath 路徑，將對應不到任何元素。另一方面，TagSoup 阅读全文

posted @ 2013-05-15 16:59 刺猬的温驯阅读(665) 评论(0) 推荐(0)

HTML 資訊汲取（中篇） - Default namespace 問題

摘要：在上一篇文章『HTML 資訊汲取（上篇） - 使用 JDOM 、 TagSoup 及 XPath』裡，我提到了如何利用 JDOM 搭配 TagSoup，並使用 XPath 簡單地汲取資訊。其實，在上一篇的範例裡，我刻意避開了兩個困擾許多人的問題：namespace(命名空間)問題以及TagSoup 的輸出問題。Namespace 問題再看一下上一篇出現的新聞標題：<spanclass="titletext">曾雅妮的魔幻數字與粉紅色</span>假設，除了 span 之外，還有其他標籤，譬如 h4，也具有 titletext 類別，但是只有 span 阅读全文

posted @ 2013-05-15 16:58 刺猬的温驯阅读(1130) 评论(0) 推荐(0)

HTML 资讯汲取（上篇） - 使用 JDOM 、 TagSoup 及 XPath

摘要：簡介本文將以實際範例介紹如何以 JDOM 搭配 TagSoup ，將 HTML 解析為 DOM 文件物件模型，並使用 XPath 汲取資訊，或者將文件輸出為 XHTML 格式。資訊汲取Internet 上蘊藏著豐富的內容，供人們分享訊息、傳承知識。但是在 Semantic Web 普及之前，除非資料來源網站主動提供資料存取 API，否則，要擷取既有 Internet 上的資訊，還是只能從解析 HTML 著手。雜亂無章的 HTML (Malformed and faulty HTML)但是眾所週知，即使存在著如 XHTML 標準規範，網路上還是充斥著各種不合乎標準的 HTML 網頁。這個現象，甚阅读全文

posted @ 2013-05-15 05:10 刺猬的温驯阅读(768) 评论(0) 推荐(0)

html解析

摘要： The important point about Java HTML parsing is to use a parser designed for it. While you can parse HTML using the default XML parser, it's a brittle thing because it will only accept well formed, strict XHTML.TagSoup libraryHence, I highly recommend using the TagSoup library which slots right i 阅读全文

posted @ 2013-05-14 03:35 刺猬的温驯阅读(346) 评论(0) 推荐(0)

详解使用sax解析xml文件的DefaultHandler处理类（转载）

摘要：一千年的时光，我无数次掀起岁月的帷幔，只为和你，在某一个平静如水的日子相遇，然后相识，倾情一生，缱绻一世，好美的散文，好吧，我情愿把这个“你”当作android；），使用sax解析xml文件是我见到过的最为简单的一种解析xml的方式了。Java代码SAXParserFactory factory = SAXParserFactory.newInstance(); SAXParser parser = factory.newSAXParser(); XMLReader xmlReader = parser.getXMLReader(); xmlReader.setContent... 阅读全文

posted @ 2013-05-14 00:57 刺猬的温驯阅读(10001) 评论(0) 推荐(0)

How Tomcat Works（一）

摘要：如果说Heritrix3.1.0系统主要涉及的是客户端的SOCKET编程，那么本系列的How Tomcat Works主要涉及的是服务器端的SOCKET编程目前关于解析Tomcat源码的文章比较多，本人在时间足够的情况下，会陆续写完自己的版本，一来是为增强编程能力，同时也为读者借鉴为了更方便的查看并... 阅读全文

posted @ 2013-05-12 06:41 刺猬的温驯阅读(494) 评论(0) 推荐(0)

Heritrix 3.1.0 源码解析（三十六）

摘要：接下来本文还要继续分析Heritrix3.1.0系统中的CrawlController类及BdbFrontier类，因为本人觉得前面部分对相关逻辑还没用理清头绪，更重要的原因是由于每篇文章的关注点不同，本人不能在同一篇文章将相关类的所有关注点一一道来本文要分析的是，Heritrix3.1.0系统是怎... 阅读全文

posted @ 2013-05-12 06:05 刺猬的温驯阅读(1121) 评论(0) 推荐(0)

应对不良网络文化的技术之一——网络信息抽取技术

摘要： 1 引言2008年1月17日，中国互联网络信息中心(CNNIC)发布了《第21次中国互联网络发展状况统计报告》[1]，报告显示：(1) 截至2007年12月，网民数已增至2.1亿人。中国网民数增长迅速，比2007年6月增加4800万人，2007年一年则增加了7300万人，年增长率达到53.3%。，在过去一年中平均每天增加网民20万人。(2) 目前中国的网民人数略低于美国的2.15亿，位于世界第二位。目前中国网站数量已达150万个，比去年同期增长了66万个，增长率达到78.4%。博客/个人空间等众多网络应用需求、域名数量增长的拉动及创建网站操作的简单化等因素作用在一起，共同使得网站数量猛增。( 阅读全文

posted @ 2013-05-11 03:42 刺猬的温驯阅读(534) 评论(0) 推荐(0)

Alfresco开发文档（转载）

摘要：转载自http://chooli.iteye.com/blog/636689这里简单地对Alfresco项目进行一下介绍吧，很多人可能对于Alfresco能做什么，对比别的开源产品，有什么特点可能不是很了解。产品的定位Alfresco是面向企业级应用的内容管理系统，它的基础是一个Document Management,为用户提供了面向企业文档管理的一系列软件工具，用户可以通过Alfresco对文档进行存储、共享、版本控制、工作流程处理、讨论等操作；用国内通俗的话来说，是一个OA方面的产品；但Alfresco的应用范围决不仅仅是一个文档管理工具，随着Alfresco的社区开发人员的不断努力，Al 阅读全文

posted @ 2013-05-10 02:48 刺猬的温驯阅读(5373) 评论(0) 推荐(1)

Hadoop1.1.2开发笔记（二）

摘要：网上讲的用Ant编译eclipse hadoop plugin插件，都讲的很复杂，对于我这样的菜鸟哪里经得起这么多折腾，本人经过实践，写出我的编译经验首先请预先安装ant并设置环境变量，下载hadoop-1.1.2.tar.gz源码解压修改${hadoop.root}/src/contrib目录的b... 阅读全文

posted @ 2013-05-09 16:31 刺猬的温驯阅读(2824) 评论(1) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣