开源大数据利器汇总
http://blog.csdn.net/aquester/article/details/23340027
类别 | 名称 | 官网 | 备注 |
查询引擎 | Phoenix | http://phoenix.incubator.apache.org/ |
Apache HBase之上的一个SQL中间层,完全 使用Java编写 |
Stinger | http://hortonworks.com/labs/stinger/ |
原叫Tez,下一代Hive,Hortonworks主导开 发,运行在YARN上的DAG计算框架 |
|
Presto | http://prestodb.io/ | Facebook开源 | |
Shark | http://shark.cs.berkeley.edu/ | Spark上的SQL执行引擎 | |
Pig | http://pig.apache.org/ | 基于Hadoop MapReduce的脚本语言 | |
Cloudera Impala | http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html | 参照Google Dremel实现 | |
Apache Drill | http://incubator.apache.org/drill/ | 参照Google Dremel实现 | |
Apache Tajo | http://tajo.incubator.apache.org/ | 一个运行在YARN上支持SQL的分布式数据仓库 | |
Hive | http://hive.apache.org/ | 基于Hadoop MapReduce的SQL查询引擎 | |
流式计算 | Facebook Puma | 实时数据流分析 | |
Twitter Rainbird | 分布式实时统计系统,如网站的点击统计 | ||
Yahoo S4 | http://incubator.apache.org/s4/ |
Java开发的一个通用的、分布式的、可扩展的、 分区容错的、可插拔的无主架构的流式系统 |
|
Twitter Storm | http://storm.incubator.apache.org/ | 使用Java和Clojure实现 | |
迭代计算 | Apache Hama | https://hama.apache.org/ |
建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的 计算框架,模仿了Google的Pregel。 |
Apache Giraph | https://giraph.apache.org/ |
建立在Hadoop上的可伸缩的分布式迭代图处理 系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel |
|
HaLoop | https://code.google.com/p/haloop/ | 迭代的MapReduce | |
Berkeley Spark | http://spark.incubator.apache.org/ http://shark.cs.berkeley.edu/ |
使用Scala语言实现,和MapReduce有较大 的竞争关系,性能强于MapReduce |
|
Twister | http://www.iterativemapreduce.org/ | 迭代的MapReduce | |
离线计算 | Hadoop MapReduce | http://hadoop.apache.org/ | 经典的大数据批处理系统 |
键值存储 | Apache Accumulo | https://accumulo.apache.org/ |
可靠的、可伸缩的、高性能、排序分布式的键值 存储解决方案,基于单元访问控制以及可定制的 服务器端处理。 |
Redis | http://redis.io/ | ||
表格存储 | Amazon SimpleDB | http://aws.amazon.com/cn/simpledb/ |
一个可大规模伸缩、用 Erlang 编写的高可用 数据存储 |
Dynamo | https://github.com/dynamo/dynamo | P2P架构 | |
Cassandra | http://cassandra.apache.org/ | P2P架构 | |
HyperTable | http://hypertable.org/ | Bigtable的C++开源实现 | |
HBase | http://hbase.apache.org/ | Bigtable在Hadoop中的实现 | |
文件存储 | CouchDB | http://couchdb.apache.org/ | 面向文档的数据存储 |
MongoDB | https://www.mongodb.org/ | 文档数据库 | |
Tachyon | http://tachyon-project.org/ https://github.com/amplab/tachyon |
加州大学伯克利分校的AMPLab基于Hadoop的 核心组件开发出一个更快的版本Tachyon, 它从底层重构了Hadoop平台。 |
|
KFS | http://code.google.com/p/kosmosfs/ | GFS的C++开源版本 | |
HDFS | http://hadoop.apache.org/ | GFS在Hadoop中的实现 | |
资源管理 | Twitter Mesos | http://mesos.apache.org/ | Google Borg的翻版 |
Hadoop Yarn | http://hadoop.apache.org/ | 类似于Mesos | |
日志收集系统 | Facebook Scribe | https://github.com/facebook/scribe | |
Cloudera Flume | http://flume.apache.org/ | ||
消息系统 | Kafka | http://kafka.apache.org/ | |
分布式服务 | ZooKeeper | http://zookeeper.apache.org/ |
分布式锁服务,PoxOS算法的实现,对应 Google的Chubby |
RPC | Apache Avro | http://avro.apache.org/ | Hadoop中的RPC |
Facebook Thrift | http://thrift.apache.org/ | RPC,支持C++/Java/PHP等众多语言 | |
集群管理 | Nagios | http://www.nagios.org/ | 监视系统运行状态和网络信息的监视系统 |
Ganglia | http://ganglia.sourceforge.net/ |
UC Berkeley发起的一个开源集群监视项目, 设计用于测量数以千计的节点。 |
|
Apache Ambari | http://ambari.apache.org/ | 管理和监视Apache Hadoop集群的开源框架 | |
基础设施 | LevelDB | http://code.google.com/p/leveldb/ |
Google开发的单机版键值数据库,具有 非常高的写性能 |
SSTable | Sorted String Table | ||
RecordIO | |||
Protocol Buffers | http://code.google.com/p/protobuf/ |
Google公司开发的一种数据描述语言, 类似于XML能够将结构化数据序列化, 可用于数据存储、通信协议等方面。 它不依赖于语言和平台并且可扩展性极强。 |
|
搜索引擎 | Nutch | https://nutch.apache.org/ |
开源Java 实现的搜索引擎,诞生 Hadoop的地方。 |
Lucene | http://lucene.apache.org/ |
一套信息检索工具包,但并不包含搜索引擎 系统,它包含了索引结构、读写索引工具、 相关性工具、排序等功能。 |
|
Solr | https://lucene.apache.org/solr/ | Solr是基于Lucene的搜索。 |