刺猬的温驯 - 博客园

基于 Apache Mahout 构建社会化推荐引擎

摘要：简介：Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息，成为了 Web 应用成败的关键。Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎，帮助 Web 应用开发者更高效的实现个性化推荐功能，从而提高最终用户满意度。推荐引擎简介推荐引擎利用特殊的信息过滤（IF，Information Filtering）技术，将不同的内容（例如阅读全文

posted @ 2013-01-13 04:40 刺猬的温驯阅读(237) 评论(0) 推荐(0)

利用 Heritrix 构建特定站点爬虫

摘要：简介：Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行，最后以抓取北京林业大学网站为例，介绍如何对其进行扩展，实现只抓取特定网站的页面。本文由浅入深，详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展，介绍如何实现只抓取特定网站的页面。通过本文，读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行，能够从零开始构建特定站点的专有爬虫，从而为网站增加全文检索服阅读全文

posted @ 2013-01-13 04:01 刺猬的温驯阅读(325) 评论(0) 推荐(0)

solr开发——spring-data-solr

摘要： spring貌似要一统天下，不断的给人以惊喜请看官方发言：我很高兴的宣布 Spring Data Solr 项目首个里程碑发布，这是由Christoph Strobl领导开发的项目，实现了 Spring Data 访问 Solr 存储并提供了 Spring Data JPA 模型的访问方式。此次之外，Spring Data Solr 提供了一个更底层的 SolrTemplate 以方便启动一个嵌入式的 Solr 服务器https://github.com/SpringSource/spring-data-solrhttps://github.com/SpringSource/spring-da 阅读全文

posted @ 2013-01-05 22:30 刺猬的温驯阅读(1039) 评论(0) 推荐(0)

使用 jsoup 对 HTML 文档进行解析和操作

摘要：简介：jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。本文主要介绍如何使用 jsoup 来进行常用的 HTML 解析。jsoup 简介Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 阅读全文

posted @ 2013-01-04 17:57 刺猬的温驯阅读(8495) 评论(0) 推荐(2)

使用JSOUP处理HTML文档

摘要：一、 JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，可以看作是java版的jQuery。jsoup的主要功能如下：从一个URL，文件或字符串中解阅读全文

posted @ 2013-01-04 17:55 刺猬的温驯阅读(1569) 评论(0) 推荐(0)

使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用

摘要：在线演示本地下载如果你曾经开发过内容聚合类网站的话，使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用java的话，我们都会使用到一些HTML的解析，例如，httpparser，最早gbin1.com的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果，并且整合呈现给搜索用户，这也就是GBin1域名的由来。那么今天呢，我们介绍另外一个超棒的Java的HTML解析器 -jsoup，这个类库可以帮助大家实时的处理HTML。提供了非常方便的API来提取和处理数据，最重要的它使用类似jQuery的语法来处理DOM，CSS等，如果你使用过jQuery 阅读全文

posted @ 2013-01-04 17:53 刺猬的温驯阅读(419) 评论(0) 推荐(0)

MongoDB Replica Set 配置

摘要： Replica Set 节点类型分为三种：standard：常规节点，它存储一份完整的数据副本，参与选举投票，有可能成为primary节点;passive：存储了完整的数据副本，参与投票，不能成为primary节点;arbiter：仲裁节点，只参与投票，不接收复制的数据，也不能成为primary节点。本文配置使用2个常规节点和一个arbiter节点，arbiter节点由于不同步数据，所以负载会很小，部署对硬件没有太大的要求。假设192.168.1.211、192.168.1.212为常规节点，192.168.1.68为arbiter节点。三个节点上的mongodb都是用下面的配置文件，文件存放阅读全文

posted @ 2012-12-24 14:45 刺猬的温驯阅读(334) 评论(0) 推荐(0)

配置MongoDB集群分片

摘要：转载自http://my.oschina.net/zhzhenqin/blog/97268现在网上很多教程都在讲MongoDB分片配置，但大多都没有经过实战，胡乱转载。而且用的MongoDB版本不同各种配置眼花寮乱，让入门者莫衷一是。最近我也做了MongoDB分片，贴出自己的配置。并且把需要注意的问题和大伙聊聊，不恰当的地方希望大家指正。也同时希望让后来者能绕过这些问题。正式环境为了保证数据安全都要进行备份的，关于分片复制请见alibaba教程：http://www.taobaodba.com/html/525_525.html我配置的集群是测试用的，没有复制。只是简单的分片存储数据进行测试阅读全文

posted @ 2012-12-23 22:44 刺猬的温驯阅读(273) 评论(0) 推荐(0)

MongoDB分片中片键的选择

摘要：转载自http://www.cnblogs.com/spnt/当MongoDB整个架构已经部署好以后，真正考验架构者能力的时候就到了：该如何选择片键。如果选择了一个不恰当的片键，他可能会在访问量变大的时候，使你的整个应用系统崩溃，同样好的片键可以构成一个良性的生态系统，根据需要增删服务器，MongoDB会确保系统一直正确的运行下去。咱们先看看几种不恰当的片键1，小基数片键假设我们有一个存储用户信息的应用程序，每个文档有一个continent的字段，存储用户所在地区，其值有：africa,antarctica,asia,australia,europe,north america,south 阅读全文

posted @ 2012-12-23 22:33 刺猬的温驯阅读(705) 评论(0) 推荐(0)

Mongodb的Replica Sets + Sharding架构

摘要：转载自http://www.cnblogs.com/spnt/MongoDB的Sharding机制解决了海量存储和动态扩容的问题，但离生产环境的高可靠，高可用还有距离，Sharding在单点出现故障时就无能为力了。但是MongoDB的副本集却可以很轻松的处理单点故障，所以就有了Replica Sets + Sharding的高可用，高安全的架构。架构如下： 1，shard服务器：使用Replica Sets确保每个数据节点都具有备份、自动容错转移、自动恢复的能力。 2，配置服务器：使用使用3个配置服务器确保元数据完整性 3，路由进程：使用3个路由进程实现平衡，提高客户端接入性能，架构如下3个阅读全文

posted @ 2012-12-23 22:22 刺猬的温驯阅读(230) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣