2013 年 1月随笔档案 - 刺猬的温驯

摘要：applicationContext.xml配置文件 OFF 19900 10000 1000 ... 阅读全文

posted @ 2013-01-27 23:51 刺猬的温驯阅读(378) 评论(0) 推荐(0) 编辑

摘要：在早先的一篇关于 Mashups4JSF 的文章中（参见参考资料），我们了解了 Mashups4JSF 是什么，如何配置它，以及如何使用它构建一个有用的 mashup 应用程序。我们还了解了如何在 WebSphere Application Server V7.0 上结合使用库和 Apache MyFaces 2.0 以及 IBM JWL (JavaServer Faces Widget Library)。mashup 应用程序中最常见的用例之一就是以 feed（RSS 或 Atom）的形式导出应用程序的内部数据。在 Mashups4JSF 出现之前，开发人员需要从应用程序 DTO（数据传输对阅读全文

posted @ 2013-01-17 16:10 刺猬的温驯阅读(233) 评论(0) 推荐(0) 编辑

基于 Apache Mahout 构建社会化推荐引擎

摘要：简介：Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息，成为了 Web 应用成败的关键。Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎，帮助 Web 应用开发者更高效的实现个性化推荐功能，从而提高最终用户满意度。推荐引擎简介推荐引擎利用特殊的信息过滤（IF，Information Filtering）技术，将不同的内容（例如阅读全文

posted @ 2013-01-13 04:40 刺猬的温驯阅读(219) 评论(0) 推荐(0) 编辑

利用 Heritrix 构建特定站点爬虫

摘要：简介：Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行，最后以抓取北京林业大学网站为例，介绍如何对其进行扩展，实现只抓取特定网站的页面。本文由浅入深，详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展，介绍如何实现只抓取特定网站的页面。通过本文，读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行，能够从零开始构建特定站点的专有爬虫，从而为网站增加全文检索服阅读全文

posted @ 2013-01-13 04:01 刺猬的温驯阅读(299) 评论(0) 推荐(0) 编辑

solr开发——spring-data-solr

摘要：spring貌似要一统天下，不断的给人以惊喜请看官方发言：我很高兴的宣布 Spring Data Solr 项目首个里程碑发布，这是由Christoph Strobl领导开发的项目，实现了 Spring Data 访问 Solr 存储并提供了 Spring Data JPA 模型的访问方式。此次之外，Spring Data Solr 提供了一个更底层的 SolrTemplate 以方便启动一个嵌入式的 Solr 服务器https://github.com/SpringSource/spring-data-solrhttps://github.com/SpringSource/spring-da 阅读全文

posted @ 2013-01-05 22:30 刺猬的温驯阅读(1028) 评论(0) 推荐(0) 编辑

使用 jsoup 对 HTML 文档进行解析和操作

摘要：简介：jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。本文主要介绍如何使用 jsoup 来进行常用的 HTML 解析。jsoup 简介Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 阅读全文

posted @ 2013-01-04 17:57 刺猬的温驯阅读(8441) 评论(0) 推荐(2) 编辑

使用JSOUP处理HTML文档

摘要：一、 JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，可以看作是java版的jQuery。jsoup的主要功能如下：从一个URL，文件或字符串中解阅读全文

posted @ 2013-01-04 17:55 刺猬的温驯阅读(1501) 评论(0) 推荐(0) 编辑

使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用

摘要：在线演示本地下载如果你曾经开发过内容聚合类网站的话，使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用java的话，我们都会使用到一些HTML的解析，例如，httpparser，最早gbin1.com的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果，并且整合呈现给搜索用户，这也就是GBin1域名的由来。那么今天呢，我们介绍另外一个超棒的Java的HTML解析器 -jsoup，这个类库可以帮助大家实时的处理HTML。提供了非常方便的API来提取和处理数据，最重要的它使用类似jQuery的语法来处理DOM，CSS等，如果你使用过jQuery 阅读全文

posted @ 2013-01-04 17:53 刺猬的温驯阅读(387) 评论(0) 推荐(0) 编辑

君子博学而日参省乎己则知明而行无过矣

公告

搜索

常用链接

随笔分类

随笔档案

Android开发

hadoop

hibernate

Information Retrieval

java blog

java framework

java socket

linux

MongoDB

spring data jpa

spring MVC3.0

spring security3

thread

操作系统

数据结构与算法

云计算

阅读排行榜

评论排行榜

推荐排行榜

最新评论

tql

01 2013 档案

君子博学而日参省乎己 则知明而行无过矣

公告

搜索