2013 年 5月随笔档案 - 刺猬的温驯

Win8 + Hyper-V 虚拟机性能简测与虚拟化技术科普（三）

摘要：转载自　http://www.dadclab.com/archives/2554看过第一篇虚拟化技术与评测的各个虚拟机软件简介、第二篇评测软件逐一详细介绍的观众估计对Win8 + Hyper-V 虚拟机已经有了一定的认知吧，今天小编跟大家分享的是测试流程，让大家能清楚的了解评测过程中的各种数据参数……本次测试的物理机是编者的 DELL N5010 笔记本，先看下物理机的配置吧：宿主机系统：Windows 7 x64 SP1 旗舰版Linux测试环境：Fedora 17（内核版本：Linux 3.3.4-5 )Windows测试环境：Windows 7 x64 SP1 UltimateWindo 阅读全文

posted @ 2013-05-31 20:05 刺猬的温驯阅读(3242) 评论(0) 推荐(0) 编辑

Win8 + Hyper-V 虚拟机性能简测与虚拟化技术科普（一）

摘要：转载自　http://www.dadclab.com/archives/2509经过一番艰苦卓绝的斗争和艰苦卓绝的收集各类数据，终于把这篇科普的文章整理完整弄上来了。本文简要概述Win8+Hyper-V 技术，以及 Win8+Hyper-V、Win8+VMware9、Win8+VirtualBox、... 阅读全文

posted @ 2013-05-31 20:04 刺猬的温驯阅读(893) 评论(0) 推荐(0) 编辑

Win8+Hyper-V虚拟机性能简测与虚拟化技术科普（二）

摘要：转载自　http://www.dadclab.com/archives/2549小编已经在第一篇中跟大家简单科普了虚拟化技术，并介绍了一下参与评测的各个虚拟机软件。那么今天的第二篇将会对评测软件进行逐一的介绍。对于这次评测，编者也做了很广泛的研究，一开始敲定仅仅使用 Pcmark7 来作为测试软件，... 阅读全文

posted @ 2013-05-31 20:04 刺猬的温驯阅读(471) 评论(0) 推荐(0) 编辑

Hadoop1.2.0开发笔记（五）

摘要：本文接下来描述hadoop-1.2.0的系统搭建，在搭建环境的过程中可能会碰到很多问题，需要考验开发人员的足够的耐心本人的系统环境是linuxmint15 64bit1)Hadoop的基本安装a.首先需要编译hadoop-1.2.0系统，在终端进入${hadoop.root}目录，执行ant ecl... 阅读全文

posted @ 2013-05-31 09:01 刺猬的温驯阅读(1460) 评论(0) 推荐(0) 编辑

Hadoop1.2.0开发笔记（四）

摘要：本文接下来描述将hadoop-1.2.0的源码导入到eclipse环境中本人的系统环境是linuxmint15 64bit前提条件是系统已经安装jdk ant ivy并配置好相关环境变量在终端进入${hadoop.root}目录，执行ant eclipse命令，会自动下载相关依赖jar，编译项目然后... 阅读全文

posted @ 2013-05-31 09:00 刺猬的温驯阅读(734) 评论(0) 推荐(0) 编辑

Hadoop1.2.0开发笔记（三）

摘要：这个世界变化的太快，本人上文写完编译hadoop1.1.2版本的eclipse插件，hadoop的1.2.0的release版本就已经发布了，要我们这些开发人员情何以堪呢既然hadoop版本1.2.0发布出来了，我们也不甘落后本人这次的编译环境是linuxmint15 64bit，与上文的编译环境w... 阅读全文

posted @ 2013-05-31 03:32 刺猬的温驯阅读(4646) 评论(10) 推荐(0) 编辑

WEB数据挖掘（四）——数据采集

摘要：以前开发过数据采集的程序，这段时间重新翻出来重构了一下代码，程序还有很多需要改进的地方web数据采集从http提交方式可分为get方式和post方式（其实还有其他方式，不过目前浏览器不支持），针对这两种方式的数据采集，当时本人通过继承抽象父类的方式来实现这两种采集方式的请求参数封装类，post方式的... 阅读全文

posted @ 2013-05-27 01:58 刺猬的温驯阅读(961) 评论(0) 推荐(0) 编辑

WEB数据挖掘（三）——HTML词法分析

该文被密码保护。

posted @ 2013-05-23 23:13 刺猬的温驯阅读(20) 评论(0) 推荐(0) 编辑

技巧: 用 JAXM 发送和接收 SOAP 消息—Java API 使许多手工生成和发送消息方面必需的步骤自动化

摘要：简介：在本篇技巧文章中，作者兼开发人员 Nicholas Chase 向您演示如何使用用于 XML 消息传递的 Java API（Java API for XML Messaging (JAXM)）简化创建和发送 SOAP 消息的过程。Web 服务的基础在于以标准格式发送和接收消息以便使所有系统都能理解。通常，那种格式是简单对象访问协议（Simple Object Access Protocol (SOAP)）。SOAP 消息可以手工生成和发送，但是用于 XML 消息传递的 Java API（JAXM）使许多必需步骤（如创建连接或创建并发送实际消息）自动化。这篇技巧文章记录了一个同步 SOAP 阅读全文

posted @ 2013-05-23 03:19 刺猬的温驯阅读(3384) 评论(1) 推荐(1) 编辑

浏览器是如何工作的？（转载）

摘要：文章引用地址：http://www.iefans.net/liulanqi-ruhe-gongzuo-yuanli/作者：iefans简介浏览器可以被认为是使用最广泛的软件，本文将介绍浏览器的工作原理，我们将看到，从你在地址栏输入google.com到你看到google主页过程中都发生了什么。将讨论的浏览器今天，有五种主流浏览器——IE、Firefox、Safari、Chrome及Opera。本文将基于一些开源浏览器的例子——Firefox、 Chrome及Safari，Safari是部分开源的。根据W3C（World Wide Web Consortium 万维网联盟）的浏览器统计数据，当前阅读全文

posted @ 2013-05-21 23:12 刺猬的温驯阅读(322) 评论(0) 推荐(0) 编辑

Web网页数据抽取软件的设计与实现

摘要：随着Internet的迅速发展，Web已经成为人们获取信息的主要渠道之一，大多数的企业或团体都是通过Web站点的网页发布企业信息。为了充分利用这些信息，而不仅仅是浏览，应用程序必须从HTML形式的Web网页中抽取感兴趣的数据，并转换成具有一定结构的格式化数据。Web包装器软件的任务就是负责抽取HTML格式的数据并转化为结构化的数据。基于Web包装器的应用程序能以访问数据库中信息的方式来访问Web数据，所以Web包装器是Web数据集成体系结构中的关键部分。论文在研究Web包装器概念设计的基础上，利用最新的Web技术、信息处理技术和人工智能技术，完成了Web网页数据抽取包装器软件的设计，并通过We 阅读全文

posted @ 2013-05-20 10:07 刺猬的温驯阅读(1235) 评论(0) 推荐(0) 编辑

WEB数据挖掘（二）——HTML节点解析

该文被密码保护。

posted @ 2013-05-17 05:13 刺猬的温驯阅读(27) 评论(0) 推荐(0) 编辑

WEB数据挖掘（一）——RoadRunner自动包装器

该文被密码保护。

posted @ 2013-05-16 05:58 刺猬的温驯阅读(27) 评论(0) 推荐(0) 编辑

基于分块统计和机器学习的主题类网页内容识别算法实现和应用范例

摘要：参考了iteye上的一篇文章http://yshjava.iteye.com/blog/1528208，本人还原了该文章的源码，还请那位博主原谅精确抽取web网页内容一直是做数据抽取开发比较头痛的问题，目前国内外也有很多研究成果，尚待进一步发掘并应用于实际项目中下面是转载部分：应该说，在WEB分块领域，已经有大量的研究工作。由于HTML语法的灵活性，目前大部分的网页都没有完全遵循W3C规范，这样可能会导致DOM树结果的错误。更重要的是，DOM树最早引入是为了在浏览器中进行布局显示，而不是进行WEB页面的语义结构描述。某些文献中提到，根据标签把网页分成若干内容块，这些分块方法流程简单，但面对日益阅读全文

posted @ 2013-05-16 02:52 刺猬的温驯阅读(1125) 评论(3) 推荐(0) 编辑

以Groovy的方式更稳定地解析HTML（转载）

摘要：如何使用Groovy解析无法通过XML验证的HTML代码原文：Robust HTML parsing the Groovy way用Groovy解析XML很简单，只要确保输入的数据格式良好就能运行的很好——但现实并非总是能保证这一点。视考虑HTML代码，想让它们通过XML的验证总是困难重重，这就需要TagSoup来拯救了。主要的阻碍来自于：DTD未闭合的标签让我们通过一个简单的脚本来演示解析StackOverflow 的页面[java]view plaincopydefslurper=newXmlSlurper()defhtmlParser=slurper.parse("http:/ 阅读全文

posted @ 2013-05-15 17:05 刺猬的温驯阅读(1183) 评论(0) 推荐(0) 编辑

HTML 資訊汲取（下篇） - TagSoup 輸出 namespace 問題的解決方案

摘要：Namespace 問題在上一篇文章『HTML 資訊汲取（中篇） - Default namespace 問題』中提到：在 XPath 中，沒有所謂 default namespace (預設命名空間)。若 XPath 路徑未使用 prefix (前置字符) 指明 namespace，則其對應的 namespace 為 empty namespace (空命名空間)。因此，若在 XML 文件中定義了 default namespace，則所有的標籤必定都歸屬於某個不為空的 namespace。此時，未指明 namespace 的 XPath 路徑，將對應不到任何元素。另一方面，TagSoup 阅读全文

posted @ 2013-05-15 16:59 刺猬的温驯阅读(636) 评论(0) 推荐(0) 编辑

HTML 資訊汲取（中篇） - Default namespace 問題

摘要：在上一篇文章『HTML 資訊汲取（上篇） - 使用 JDOM 、 TagSoup 及 XPath』裡，我提到了如何利用 JDOM 搭配 TagSoup，並使用 XPath 簡單地汲取資訊。其實，在上一篇的範例裡，我刻意避開了兩個困擾許多人的問題：namespace(命名空間)問題以及TagSoup 的輸出問題。Namespace 問題再看一下上一篇出現的新聞標題：<spanclass="titletext">曾雅妮的魔幻數字與粉紅色假設，除了 span 之外，還有其他標籤，譬如 h4，也具有 titletext 類別，但是只有 span 阅读全文

posted @ 2013-05-15 16:58 刺猬的温驯阅读(1119) 评论(0) 推荐(0) 编辑

HTML 资讯汲取（上篇） - 使用 JDOM 、 TagSoup 及 XPath

摘要：簡介本文將以實際範例介紹如何以 JDOM 搭配 TagSoup ，將 HTML 解析為 DOM 文件物件模型，並使用 XPath 汲取資訊，或者將文件輸出為 XHTML 格式。資訊汲取Internet 上蘊藏著豐富的內容，供人們分享訊息、傳承知識。但是在 Semantic Web 普及之前，除非資料來源網站主動提供資料存取 API，否則，要擷取既有 Internet 上的資訊，還是只能從解析 HTML 著手。雜亂無章的 HTML (Malformed and faulty HTML)但是眾所週知，即使存在著如 XHTML 標準規範，網路上還是充斥著各種不合乎標準的 HTML 網頁。這個現象，甚阅读全文

posted @ 2013-05-15 05:10 刺猬的温驯阅读(745) 评论(0) 推荐(0) 编辑

html解析

摘要：The important point about Java HTML parsing is to use a parser designed for it. While you can parse HTML using the default XML parser, it's a brittle thing because it will only accept well formed, strict XHTML.TagSoup libraryHence, I highly recommend using the TagSoup library which slots right i 阅读全文

posted @ 2013-05-14 03:35 刺猬的温驯阅读(323) 评论(0) 推荐(0) 编辑

详解使用sax解析xml文件的DefaultHandler处理类（转载）

摘要：一千年的时光，我无数次掀起岁月的帷幔，只为和你，在某一个平静如水的日子相遇，然后相识，倾情一生，缱绻一世，好美的散文，好吧，我情愿把这个“你”当作android；），使用sax解析xml文件是我见到过的最为简单的一种解析xml的方式了。Java代码SAXParserFactory factory = SAXParserFactory.newInstance(); SAXParser parser = factory.newSAXParser(); XMLReader xmlReader = parser.getXMLReader(); xmlReader.setContent... 阅读全文

posted @ 2013-05-14 00:57 刺猬的温驯阅读(9965) 评论(0) 推荐(0) 编辑

How Tomcat Works（一）

摘要：如果说Heritrix3.1.0系统主要涉及的是客户端的SOCKET编程，那么本系列的How Tomcat Works主要涉及的是服务器端的SOCKET编程目前关于解析Tomcat源码的文章比较多，本人在时间足够的情况下，会陆续写完自己的版本，一来是为增强编程能力，同时也为读者借鉴为了更方便的查看并... 阅读全文

posted @ 2013-05-12 06:41 刺猬的温驯阅读(459) 评论(0) 推荐(0) 编辑

Heritrix 3.1.0 源码解析（三十六）

摘要：接下来本文还要继续分析Heritrix3.1.0系统中的CrawlController类及BdbFrontier类，因为本人觉得前面部分对相关逻辑还没用理清头绪，更重要的原因是由于每篇文章的关注点不同，本人不能在同一篇文章将相关类的所有关注点一一道来本文要分析的是，Heritrix3.1.0系统是怎... 阅读全文

posted @ 2013-05-12 06:05 刺猬的温驯阅读(1093) 评论(0) 推荐(0) 编辑

应对不良网络文化的技术之一——网络信息抽取技术

摘要：1 引言2008年1月17日，中国互联网络信息中心(CNNIC)发布了《第21次中国互联网络发展状况统计报告》[1]，报告显示：(1) 截至2007年12月，网民数已增至2.1亿人。中国网民数增长迅速，比2007年6月增加4800万人，2007年一年则增加了7300万人，年增长率达到53.3%。，在过去一年中平均每天增加网民20万人。(2) 目前中国的网民人数略低于美国的2.15亿，位于世界第二位。目前中国网站数量已达150万个，比去年同期增长了66万个，增长率达到78.4%。博客/个人空间等众多网络应用需求、域名数量增长的拉动及创建网站操作的简单化等因素作用在一起，共同使得网站数量猛增。( 阅读全文

posted @ 2013-05-11 03:42 刺猬的温驯阅读(488) 评论(0) 推荐(0) 编辑

Alfresco开发文档（转载）

摘要：转载自http://chooli.iteye.com/blog/636689这里简单地对Alfresco项目进行一下介绍吧，很多人可能对于Alfresco能做什么，对比别的开源产品，有什么特点可能不是很了解。产品的定位Alfresco是面向企业级应用的内容管理系统，它的基础是一个Document Management,为用户提供了面向企业文档管理的一系列软件工具，用户可以通过Alfresco对文档进行存储、共享、版本控制、工作流程处理、讨论等操作；用国内通俗的话来说，是一个OA方面的产品；但Alfresco的应用范围决不仅仅是一个文档管理工具，随着Alfresco的社区开发人员的不断努力，Al 阅读全文

posted @ 2013-05-10 02:48 刺猬的温驯阅读(5348) 评论(0) 推荐(1) 编辑

Hadoop1.1.2开发笔记（二）

摘要：网上讲的用Ant编译eclipse hadoop plugin插件，都讲的很复杂，对于我这样的菜鸟哪里经得起这么多折腾，本人经过实践，写出我的编译经验首先请预先安装ant并设置环境变量，下载hadoop-1.1.2.tar.gz源码解压修改${hadoop.root}/src/contrib目录的b... 阅读全文

posted @ 2013-05-09 16:31 刺猬的温驯阅读(2796) 评论(1) 推荐(0) 编辑

Hadoop1.1.2开发笔记（一）

摘要：本文参考hadoop权威指南，开发一个单词统计的程序，首先需要下载hadoop相应版本的依赖文件，本人是采用的maven项目管理，在pom.xml文件加入依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> <version>1.1.2</version> <type>jar</type> <scope>compile</scope> < 阅读全文

posted @ 2013-05-09 04:29 刺猬的温驯阅读(1738) 评论(0) 推荐(0) 编辑

Heritrix 3.1.0 源码解析（三十五）

摘要：本文接下来先分析CandidatesProcessor处理器，我们称之为候选处理器，该处理器的功能是对网页抽取的外链进行过滤，通过过滤的链接则添加到Frontier边界部件的BdbWorkQueue工作队列；CandidatesProcessor处理器对CrawlURI candidate对象的过滤... 阅读全文

posted @ 2013-05-07 19:05 刺猬的温驯阅读(785) 评论(0) 推荐(0) 编辑

Heritrix 3.1.0 源码解析（三十四）

摘要：本文主要分析FetchFTP处理器，该处理器用于ftp文件的下载，该处理器的实现是通过封装commons-net-2.0.jar组件来实现ftp文件下载在FetchFTP处理器里面定义了内部类SocketFactoryWithTimeout（SOCKET工厂），用于创建SOCKET/** *... 阅读全文

posted @ 2013-05-05 22:47 刺猬的温驯阅读(575) 评论(0) 推荐(0) 编辑

solr dataimport 数据导入源码分析（十四）

摘要：在solr的数据导入源码里面，DocBuilder类用于创建solr的Document，具体过程不在本文分析，最后调用SolrWriter类的对象执行SolrInputDocument doc对象的提交、修改、删除等操作本人先来分析一下SolrWriter对象的创建，在DataImportHandler类（数据导入请求处理）的void handleRequestBody(SolrQueryRequest req, SolrQueryResponse rsp)方法里面UpdateRequestProcessorChain processorChain = req.g... 阅读全文

posted @ 2013-05-04 21:43 刺猬的温驯阅读(2478) 评论(0) 推荐(0) 编辑

solr dataimport 数据导入源码分析（十三）

摘要：本文接下来分析EntityProcessor相关类，我们可以称之为实体处理器，针对不同的数据源有不同的实体处理器，屏蔽了不同数据源的差异本文只介绍针对数据库数据源的实体处理器，其他实体处理器类似EntityProcessor类为抽象类，定义了获取数据源的Map类型数据的方法（针对添加修改删除的数据）/** * * An instance of entity processor serves an entity. It is reused throughout the * import process. * * * <p& 阅读全文

posted @ 2013-05-04 14:05 刺猬的温驯阅读(1999) 评论(0) 推荐(0) 编辑

solr dataimport 数据导入源码分析（十二）

摘要：去年本人写过一系列solr dataimport 数据导入源码分析，由于博客园系统存在一些问题，后来上传的相同名称的图片覆盖了原来的图片，导致原来文章里面的图片与其内容不符合，我这里重新整理一下，也同时更新一些心得solr dataimport 数据导入的全局UML类图如下（分两张，我的显示器不够大，显示器显示不完）从上面的UML类图看以看出，这里面是采取了装饰模式以及迭代子模式等我们首先来分析DataSource类，该类为抽象泛型类，定义了初始化数据源和获取泛型数据的方法/** * * Provides data from a source with a given qu 阅读全文

posted @ 2013-05-04 13:12 刺猬的温驯阅读(2488) 评论(0) 推荐(0) 编辑

Heritrix 3.1.0 源码解析（三十三）

摘要：本文要分析的是FetchHTTP处理器，该处理器实现CrawlURI curi对象URL的请求（OutputStream写入数据）并且返回InputStreamFetchHTTP处理器有很多成员变量，均为设置远程请求的相关参数，本人只解释其中重要成员变量/** * Whether or no... 阅读全文

posted @ 2013-05-01 14:26 刺猬的温驯阅读(1112) 评论(3) 推荐(0) 编辑

Heritrix 3.1.0 源码解析（三十二）

摘要：本文要分析的是FetchDNS处理器，该处理器的功能是解析CrawlURI curi对象的DNS地址，该处理器是采用dnsjava-2.0.3.jar组件进行解析DNS的（我们可以参考本文代码采用dnsjava-2.0.3.jar组件API解析DNS）FetchDNS处理器的重要成员变量// Def... 阅读全文

posted @ 2013-05-01 03:04 刺猬的温驯阅读(727) 评论(0) 推荐(0) 编辑

君子博学而日参省乎己则知明而行无过矣

公告

搜索

常用链接

随笔分类

随笔档案

Android开发

hadoop

hibernate

Information Retrieval

java blog

java framework

java socket

linux

MongoDB

spring data jpa

spring MVC3.0

spring security3

thread

操作系统

数据结构与算法

云计算

阅读排行榜

评论排行榜

推荐排行榜

最新评论

tql

05 2013 档案

君子博学而日参省乎己 则知明而行无过矣

公告

搜索

常用链接

随笔分类

随笔档案

Android开发

hadoop

hibernate

Information Retrieval

java blog

java framework

java socket

linux

MongoDB

spring data jpa

spring MVC3.0

spring security3

thread

操作系统

数据结构与算法

云计算

阅读排行榜

评论排行榜

推荐排行榜

最新评论

tql

05 2013 档案

君子博学而日参省乎己则知明而行无过矣