摘要:
ApacheDS(Apache Directory Server)的核心是目录服务,可以保存数据,并对不同类型的数据进行搜索操作。协议的实现在目录服务器顶层工作,提供与数据存储、搜索和检索有关的 Internet 服务。ApacheDS最重要的特性可能是利用不同协议公开目录服务的能力... 阅读全文
摘要:
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI,Pdfbox并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。在当前的0.2-SNAPSHOT版本中, Tika提供了对如下... 阅读全文
摘要:
Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout 包含许多实现,包... 阅读全文
摘要:
Apache Jackrabbit 是由 Apache Foundation 提供的 JSR-170 的开放源码实现..随着内容管理应用程序的日益普及,对用于内容仓库的普通、标准化 API 的需求已凸现出来。Content Repository for Java Technology API (JS... 阅读全文
摘要:
Apache Camel 是一个非常强大的基于规则的路由以及媒介引擎,该引擎提供了一个基于POJO的 企业应用模式(Enterprise Integration Patterns)的实现,你可以采用其异常强大且十分易用的API (可以说是一种Java的领域定义语言 Domain Specific L... 阅读全文
摘要:
安全是企业应用中不可缺少的功能,在众多权限框架中,Shiro(其前身是JSecurity)因其简单而又不失强大的特点引起了不少开发者的注 意。随着Grails的关注度越来越高,在Grails社区也出现了Shiro的插件。 Shiro最早的名字是JSecurity,后来更名为Shiro并成为Apach 阅读全文
摘要:
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与... 阅读全文
摘要:
solr 名称来源Search On Lucene Replicationsolr 基本概况Apache Solr (读音:SOLer)是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 ApacheLucene实现。Apache Solr 中存储的资源是以 Docu... 阅读全文
摘要:
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HB... 阅读全文
摘要:
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper是Google的Chubb... 阅读全文