刺猬的温驯 - 博客园

使用 jsoup 对 HTML 文档进行解析和操作

摘要：简介：jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。本文主要介绍如何使用 jsoup 来进行常用的 HTML 解析。jsoup 简介Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 阅读全文

posted @ 2013-01-04 17:57 刺猬的温驯阅读(8483) 评论(0) 推荐(2)

使用JSOUP处理HTML文档

摘要：一、 JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，可以看作是java版的jQuery。jsoup的主要功能如下：从一个URL，文件或字符串中解阅读全文

posted @ 2013-01-04 17:55 刺猬的温驯阅读(1557) 评论(0) 推荐(0)

使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用

摘要：在线演示本地下载如果你曾经开发过内容聚合类网站的话，使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用java的话，我们都会使用到一些HTML的解析，例如，httpparser，最早gbin1.com的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果，并且整合呈现给搜索用户，这也就是GBin1域名的由来。那么今天呢，我们介绍另外一个超棒的Java的HTML解析器 -jsoup，这个类库可以帮助大家实时的处理HTML。提供了非常方便的API来提取和处理数据，最重要的它使用类似jQuery的语法来处理DOM，CSS等，如果你使用过jQuery 阅读全文

posted @ 2013-01-04 17:53 刺猬的温驯阅读(410) 评论(0) 推荐(0)

MongoDB Replica Set 配置

摘要： Replica Set 节点类型分为三种：standard：常规节点，它存储一份完整的数据副本，参与选举投票，有可能成为primary节点;passive：存储了完整的数据副本，参与投票，不能成为primary节点;arbiter：仲裁节点，只参与投票，不接收复制的数据，也不能成为primary节点。本文配置使用2个常规节点和一个arbiter节点，arbiter节点由于不同步数据，所以负载会很小，部署对硬件没有太大的要求。假设192.168.1.211、192.168.1.212为常规节点，192.168.1.68为arbiter节点。三个节点上的mongodb都是用下面的配置文件，文件存放阅读全文

posted @ 2012-12-24 14:45 刺猬的温驯阅读(323) 评论(0) 推荐(0)

配置MongoDB集群分片

摘要：转载自http://my.oschina.net/zhzhenqin/blog/97268现在网上很多教程都在讲MongoDB分片配置，但大多都没有经过实战，胡乱转载。而且用的MongoDB版本不同各种配置眼花寮乱，让入门者莫衷一是。最近我也做了MongoDB分片，贴出自己的配置。并且把需要注意的问题和大伙聊聊，不恰当的地方希望大家指正。也同时希望让后来者能绕过这些问题。正式环境为了保证数据安全都要进行备份的，关于分片复制请见alibaba教程：http://www.taobaodba.com/html/525_525.html我配置的集群是测试用的，没有复制。只是简单的分片存储数据进行测试阅读全文

posted @ 2012-12-23 22:44 刺猬的温驯阅读(269) 评论(0) 推荐(0)

MongoDB分片中片键的选择

摘要：转载自http://www.cnblogs.com/spnt/当MongoDB整个架构已经部署好以后，真正考验架构者能力的时候就到了：该如何选择片键。如果选择了一个不恰当的片键，他可能会在访问量变大的时候，使你的整个应用系统崩溃，同样好的片键可以构成一个良性的生态系统，根据需要增删服务器，MongoDB会确保系统一直正确的运行下去。咱们先看看几种不恰当的片键1，小基数片键假设我们有一个存储用户信息的应用程序，每个文档有一个continent的字段，存储用户所在地区，其值有：africa,antarctica,asia,australia,europe,north america,south 阅读全文

posted @ 2012-12-23 22:33 刺猬的温驯阅读(674) 评论(0) 推荐(0)

Mongodb的Replica Sets + Sharding架构

摘要：转载自http://www.cnblogs.com/spnt/MongoDB的Sharding机制解决了海量存储和动态扩容的问题，但离生产环境的高可靠，高可用还有距离，Sharding在单点出现故障时就无能为力了。但是MongoDB的副本集却可以很轻松的处理单点故障，所以就有了Replica Sets + Sharding的高可用，高安全的架构。架构如下： 1，shard服务器：使用Replica Sets确保每个数据节点都具有备份、自动容错转移、自动恢复的能力。 2，配置服务器：使用使用3个配置服务器确保元数据完整性 3，路由进程：使用3个路由进程实现平衡，提高客户端接入性能，架构如下3个阅读全文

posted @ 2012-12-23 22:22 刺猬的温驯阅读(225) 评论(0) 推荐(0)

Mongodb数据分片的维护

摘要：转载自http://www.cnblogs.com/spnt/Mongodb的Sharding维护也是就那几个命令，相对来说都很简单，结合实例做下演示。1，列出所有的Shard Server注意一点是：需要连接到路由的admin下。listshards的参数1是一个固定的默认值，没有特殊的意义。2，查看Sharding的信息切换到Friends数据库，使用printShardingStatus(),可以看到当前Sharding的信息。3，对现有的表执行Sharding。上面我们对FriendUserAttach表执行了分片，下面我们在对另外一个表FriendUser进行分片。首先我们查看下阅读全文

posted @ 2012-12-23 22:09 刺猬的温驯阅读(207) 评论(0) 推荐(0)

Mongodb数据分片的实现

摘要：转载自http://www.cnblogs.com/spnt/副本集实现了网站的安全备份和故障的无缝转移，但是并不能实现数据的大容量存储，毕竟物理硬件是有极限的，这个时候就需要做分布式部署，把数据保存到其他机器上。Mongodb的分片技术就很完美的实现了这个需求。理解Mongodb的分片技术即Sharding架构什么是Sharding？说白了就是把海量数据水平扩展的集群系统，数据分表存储在Sharding的各个节点上。 Mongodb的数据分开分为chunk，每个chunk都是collection中的一段连续的数据记录，一般为200MB，超出则生成新的数据块。构建Sharding需要三种角阅读全文

posted @ 2012-12-23 22:07 刺猬的温驯阅读(347) 评论(0) 推荐(0)

Mongodb副本集的维护

摘要：转载自http://www.cnblogs.com/spnt/Mongodb副本集配置好以后，少不了维护，维护内容也不是很多，主要是现在状态和增删节点等。在说维护之前，得先说说Mongodb副本集的同步机制。数据复制的目的是使数据得到最大的可用性，避免单点故障引起的整站不能访问的情况的发生，Mongodb的副本集在同一时刻只有一台服务器是可以写的，副本集的主从复制也是一个异步同步的过程，是slave端从primary端获取日志，然后在自己身上完全顺序的执行日志所记录的各种操作（该日志是不记录查询操作的），这个日志就是local数据库中的oplog.rs表，默认在64位机器上这个表是比较大的，占阅读全文

posted @ 2012-12-23 21:59 刺猬的温驯阅读(193) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣