大数据处理工具
一、大数据的4V特性
1、Volume:体量巨大
2、Variety:数据类型繁多
3、Value:价值密度低
4、Velocity:处理速度快
二、大数据处理需要解决的问题
1、存储
2、计算
3、挖掘
4、展现
三、大数据处理涉及的6个方面
1、数据入口
数据传输和同步一般采用基于时间线的实时同步和批量同步二种方案。
实时同步:LinkedIn的Databus+Kafaka、淘宝的TimeTunnel。
批量同步:FaceBook的Scribe、Cloudera的Flume、Hadoop的Chukwa。
2、数据的分布式存储
基于内核层:Ceph、GlusterFS
基于用户层:HDFS、GFS
业务层:HBase(列存储)、MongoDB(文档数据库)、Cassandra(K/V型数据库)、Neo4j(图形数据库)
FaceBook已经放弃Cassandra,转而开始使用HBase了。
3、数据计算
离线计算:Hadoop以及在其之上的Hive/Pig。
在线计算:也称为流式计算,Yahoo的 S4、Twitter的Storm和阿里巴巴的Caruda、Esper、Streambase、HStreaming。
4、数据挖掘
基于Hadoop的Mahout、RHadoop
5、数据可视化
FaceBook 的Insights
6、综合管理平台
Precog的Labcoat