君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 32 33 34 35 36 37 38 39 40 ··· 106 下一页

2013年5月23日 #

摘要: 简介:在本篇技巧文章中,作者兼开发人员 Nicholas Chase 向您演示如何使用用于 XML 消息传递的 Java API(Java API for XML Messaging (JAXM))简化创建和发送 SOAP 消息的过程。Web 服务的基础在于以标准格式发送和接收消息以便使所有系统都能理解。通常,那种格式是简单对象访问协议(Simple Object Access Protocol (SOAP))。SOAP 消息可以手工生成和发送,但是用于 XML 消息传递的 Java API(JAXM)使许多必需步骤(如创建连接或创建并发送实际消息)自动化。这篇技巧文章记录了一个同步 SOAP 阅读全文
posted @ 2013-05-23 03:19 刺猬的温驯 阅读(3372) 评论(1) 推荐(1) 编辑

2013年5月21日 #

摘要: 文章引用地址:http://www.iefans.net/liulanqi-ruhe-gongzuo-yuanli/作者:iefans简介浏览器可以被认为是使用最广泛的软件,本文将介绍浏览器的工作原理,我们将看到,从你在地址栏输入google.com到你看到google主页过程中都发生了什么。将讨论的浏览器今天,有五种主流浏览器——IE、Firefox、Safari、Chrome及Opera。本文将基于一些开源浏览器的例子——Firefox、 Chrome及Safari,Safari是部分开源的。根据W3C(World Wide Web Consortium 万维网联盟)的浏览器统计数据,当前 阅读全文
posted @ 2013-05-21 23:12 刺猬的温驯 阅读(322) 评论(0) 推荐(0) 编辑

2013年5月20日 #

摘要: 随着Internet的迅速发展,Web已经成为人们获取信息的主要渠道之一,大多数的企业或团体都是通过Web站点的网页发布企业信息。为了充分利用这些信息,而不仅仅是浏览,应用程序必须从HTML形式的Web网页中抽取感兴趣的数据,并转换成具有一定结构的格式化数据。Web包装器软件的任务就是负责抽取HTML格式的数据并转化为结构化的数据。基于Web包装器的应用程序能以访问数据库中信息的方式来访问Web数据,所以Web包装器是Web数据集成体系结构中的关键部分。论文在研究Web包装器概念设计的基础上,利用最新的Web技术、信息处理技术和人工智能技术,完成了Web网页数据抽取包装器软件的设计,并通过We 阅读全文
posted @ 2013-05-20 10:07 刺猬的温驯 阅读(1231) 评论(0) 推荐(0) 编辑

2013年5月17日 #

该文被密码保护。 阅读全文
posted @ 2013-05-17 05:13 刺猬的温驯 阅读(27) 评论(0) 推荐(0) 编辑

2013年5月16日 #

该文被密码保护。 阅读全文
posted @ 2013-05-16 05:58 刺猬的温驯 阅读(27) 评论(0) 推荐(0) 编辑

摘要: 参考了iteye上的一篇文章http://yshjava.iteye.com/blog/1528208,本人还原了该文章的源码,还请那位博主原谅精确抽取web网页内容一直是做数据抽取开发比较头痛的问题,目前国内外也有很多研究成果,尚待进一步发掘并应用于实际项目中下面是转载部分:应该说,在WEB分块领域,已经有大量的研究工作。由于HTML语法的灵活性,目前大部分的网页都没有完全遵循W3C规范,这样可能会导致DOM树结果的错误。更重要的是,DOM树最早引入是为了在浏览器中进行布局显示,而不是进行WEB页面的语义结构描述。某些文献中提到,根据标签把网页分成若干内容块,这些分块方法流程简单,但面对日益 阅读全文
posted @ 2013-05-16 02:52 刺猬的温驯 阅读(1120) 评论(3) 推荐(0) 编辑

2013年5月15日 #

摘要: 如何使用Groovy解析无法通过XML验证的HTML代码原文:Robust HTML parsing the Groovy way用Groovy解析XML很简单,只要确保输入的数据格式良好就能运行的很好——但现实并非总是能保证这一点。视考虑HTML代码,想让它们通过XML的验证总是困难重重,这就需要TagSoup来拯救了。主要的阻碍来自于:DTD未闭合的标签让我们通过一个简单的脚本来演示解析StackOverflow 的页面[java]view plaincopydefslurper=newXmlSlurper()defhtmlParser=slurper.parse("http:/ 阅读全文
posted @ 2013-05-15 17:05 刺猬的温驯 阅读(1179) 评论(0) 推荐(0) 编辑

摘要: Namespace 問題在上一篇文章『HTML 資訊汲取(中篇) - Default namespace 問題』中提到:在 XPath 中,沒有所謂 default namespace (預設命名空間)。若 XPath 路徑未使用 prefix (前置字符) 指明 namespace,則其對應的 namespace 為 empty namespace (空命名空間)。因此,若在 XML 文件中定義了 default namespace,則所有的標籤必定都歸屬於某個不為空的 namespace。此時,未指明 namespace 的 XPath 路徑,將對應不到任何元素。另一方面,TagSoup 阅读全文
posted @ 2013-05-15 16:59 刺猬的温驯 阅读(632) 评论(0) 推荐(0) 编辑

摘要: 在上一篇文章『HTML 資訊汲取(上篇) - 使用 JDOM 、 TagSoup 及 XPath』裡,我提到了如何利用 JDOM 搭配 TagSoup,並使用 XPath 簡單地汲取資訊。其實,在上一篇的範例裡,我刻意避開了兩個困擾許多人的問題:namespace(命名空間)問題以及TagSoup 的輸出問題。Namespace 問題再看一下上一篇出現的新聞標題:<spanclass="titletext">曾雅妮的魔幻數字與粉紅色</span>假設,除了 span 之外,還有其他標籤,譬如 h4,也具有 titletext 類別,但是只有 span 阅读全文
posted @ 2013-05-15 16:58 刺猬的温驯 阅读(1119) 评论(0) 推荐(0) 编辑

摘要: 簡介本文將以實際範例介紹如何以 JDOM 搭配 TagSoup ,將 HTML 解析為 DOM 文件物件模型,並使用 XPath 汲取資訊,或者將文件輸出為 XHTML 格式。資訊汲取Internet 上蘊藏著豐富的內容,供人們分享訊息、傳承知識。但是在 Semantic Web 普及之前,除非資料來源網站主動提供資料存取 API,否則,要擷取既有 Internet 上的資訊,還是只能從解析 HTML 著手。雜亂無章的 HTML (Malformed and faulty HTML)但是眾所週知,即使存在著如 XHTML 標準規範,網路上還是充斥著各種不合乎標準的 HTML 網頁。這個現象,甚 阅读全文
posted @ 2013-05-15 05:10 刺猬的温驯 阅读(743) 评论(0) 推荐(0) 编辑

上一页 1 ··· 32 33 34 35 36 37 38 39 40 ··· 106 下一页