一个简单的NoSQL内存数据库—Berkeley DB基本操作的例子
最近,由于云计算的发展,数据库技术也从结构式数据库发展到NoSQL数据库,存储模式从结构化的关系存储到现在如火如荼的key/value存储。其中Berkeley DB就是上述过程中的一个比较有代表性的内存数据库产品,数据库的操作是通过程序来实现的,而不是SQL语句。特别是当今数据不断动态增加的过程中,试图通过数据切割来达到扩充的思路已经行不通了,因为事先不知道客户数据格式,因此服务提供商不可能进行数据切割。而无模式的key/value存储就可以解决这种扩充带来的可扩展性问题,因为key/value的存储模式正好可以使得扩充能够自动完成,不需要事先知道任何的数据格式问题。因此,目前NoSQL数据库基本都基于key/value的存储模式,如amazon的simpleDB,google的BigTable等。本文就详细描述key/value模式的一个比较有代表性的内存数据库Berkeley DB,来介绍如何使用它来操作键值对数据。
Berkeley DB是一个开源的内存数据库,它提供的是一系列直接访问数据库的函数,而不是像关系数据库那样需要网络通讯、SQL解析等步骤。Berkeley DB是一个高性能的,嵌入数据库编程库,“嵌入”是指它内嵌在程序中,而不是说他只应用在嵌入式系统上。它适合于管理海量的,简单的数据。例如,Google用Berkeley DB HA (High Availability) 来管理他们的帐户信息,Motorola在他的无线产品中用Berkeley DB跟踪移动单元。HP,Microsoft,Sun Microsystems等也都是它的大客户。它不能完全取代关系数据库,但在某些方面,它却有他们望尘莫及的高效性。
package webspider.berkeleydb; import java.io.Serializable; /** * 定义一个序列化的java类,放到Berkeley DB中 * * @author typ * */ public class CrawlUrl implements Serializable { private static final long serialVersionUID = 607763337366522784L; private String oriUrl;// 原始URL值,主机部分是域名 private String url;// URL值,主机部分是IP,放置重复主机出现 private int statusCode;// 获取URL的返回码 public String getOriUrl() { return oriUrl; } public void setOriUrl(String oriUrl) { this.oriUrl = oriUrl; } public String getUrl() { return url; } public void setUrl(String url) { this.url = url; } public int getStatusCode() { return statusCode; } public void setStatusCode(int statusCode) { this.statusCode = statusCode; } public static long getSerialversionuid() { return serialVersionUID; } }
package webspider.berkeleydb; /** * 定义需要实现的功能接口 * * @author typ * */ public interface Frontier { /** * 获得下一条记录 * * @return * @throws Exception */ public CrawlUrl getNext() throws Exception; /** * 添加一条记录 * * @param url * @return * @throws Exception */ public boolean putUrl(CrawlUrl url) throws Exception; }
package webspider.berkeleydb; import java.io.File; import com.sleepycat.bind.serial.StoredClassCatalog; import com.sleepycat.je.Database; import com.sleepycat.je.DatabaseConfig; import com.sleepycat.je.Environment; import com.sleepycat.je.EnvironmentConfig; /** * 封装Berkeley DB的操作 * * @author typ * */ public abstract class AbstractFrontier { private Environment env; private static final String CLASS_CATALOG = "java_class_catalog"; protected StoredClassCatalog javaCatalog; protected Database catalogDatabase; protected Database database; /** * 初始化数据库需要的各种变量 * * @param homeDirectory * @throws Exception */ public AbstractFrontier(String homeDirectory) throws Exception { EnvironmentConfig envConfig = new EnvironmentConfig(); // 设置事务处理开启, envConfig.setTransactional(true); // AllowCreate属性表示没有数据库的前提下,可以自动创建数据库 envConfig.setAllowCreate(true); // 定义Environment变量,homeDirectory指的是数据库存放路径 env = new Environment(new File(homeDirectory), envConfig); // 设置数据库的属性 DatabaseConfig dbConfig = new DatabaseConfig(); dbConfig.setTransactional(true); dbConfig.setAllowCreate(true); // 通常java对象和java对象之间的映射关系要分开存放,放置到不同的数据库中 // 存放java对象的数据库 catalogDatabase = env.openDatabase(null, CLASS_CATALOG, dbConfig); javaCatalog = new StoredClassCatalog(catalogDatabase); // 存放key/value映射的数据库 database = env.openDatabase(null, "URL", dbConfig); } /** * 关闭数据库时候,关闭各种链接 * * @throws Exception */ public void close() throws Exception { database.close(); javaCatalog.close(); env.close(); } /** * Berkeley DB的存储键值对操作 * * @param key * @param value */ protected abstract void put(Object key, Object value); /** * Berkeley DB的得到键值对操作 * * @param key * @return */ protected abstract Object get(Object key); /** * Berkeley DB的删除键值对操作 * * @param key * @return */ protected abstract Object delete(Object key); }4、设计实现类,实现数据库的插入,查找和删除功能(其实数据库的功能就是直接可以用java程序来实现的,这是Berkeley DB优点的地方,可以直接向操作普通java hash程序一样,操作数据库)
package webspider.berkeleydb; import java.util.Map.Entry; import java.util.Set; import com.sleepycat.bind.EntryBinding; import com.sleepycat.bind.serial.SerialBinding; import com.sleepycat.collections.StoredMap; /** * 具体实现类 * * @author typ * */ public class BDBFrontier extends AbstractFrontier implements Frontier { // 建立map,存储key/value键值对 private StoredMap pendingUrisDBMap; /** * 初始化java对象数据库和对象映射数据库 * * @param homeDirectory * @throws Exception */ public BDBFrontier(String homeDirectory) throws Exception { super(homeDirectory); // 定义key和value的Entry EntryBinding keyBinding = new SerialBinding(javaCatalog, String.class); EntryBinding valueBinding = new SerialBinding(javaCatalog, CrawlUrl.class); // map存放在database中,database存放key/value映射 pendingUrisDBMap = new StoredMap(database, keyBinding, valueBinding, true); } /* * (non-Javadoc) * * @see webspider.berkeleydb.Frontier#getNext() */ public CrawlUrl getNext() throws Exception { CrawlUrl url = null; if (!pendingUrisDBMap.isEmpty()) { Set<Entry<String, CrawlUrl>> entrys = pendingUrisDBMap.entrySet(); Entry<String, CrawlUrl> entry = (Entry<String, CrawlUrl>) pendingUrisDBMap .entrySet().iterator().next(); url = entry.getValue(); delete(entry.getKey()); } return url; } /* * (non-Javadoc) * * @see webspider.berkeleydb.Frontier#putUrl(webspider.berkeleydb.CrawlUrl) */ public boolean putUrl(CrawlUrl url) throws Exception { put(url.getOriUrl(), url); return true; } /* * (non-Javadoc) * * @see webspider.berkeleydb.AbstractFrontier#put(java.lang.Object, * java.lang.Object) */ protected void put(Object key, Object value) { pendingUrisDBMap.put(key, value); } /* * (non-Javadoc) * * @see webspider.berkeleydb.AbstractFrontier#get(java.lang.Object) */ protected Object get(Object key) { return pendingUrisDBMap.get(key); } /* * (non-Javadoc) * * @see webspider.berkeleydb.AbstractFrontier#delete(java.lang.Object) */ protected Object delete(Object key) { return pendingUrisDBMap.remove(key); } /** * 测试效果,可以看到在f:\bdb文件夹下面生成了.jdb和.lck等Berkeley DB相关文件,数据存储在.jdb中 * 控制台输出刚刚插入的数据url的OriUrl值“http://www.baidu.com” */ public static void main(String[] args) { try { BDBFrontier frontier = new BDBFrontier("f:\\bdb"); CrawlUrl url = new CrawlUrl(); url.setOriUrl("http://www.baidu.com"); frontier.putUrl(url); System.out.println(frontier.getNext().getOriUrl()); frontier.close(); } catch (Exception e) { e.printStackTrace(); } } }
从上述过程看来,Berkeley DB可以很好的实现key/value这种存储方式,而且完全是通过一系列直接访问数据库的函数,而不是像关系数据库那样需要数据库连接、SQL解析等步骤。完全跟java程序中操作HashMap没有太大的区别,比较容易上手。