大数据的两种处理方式

       大数据的处理方式有两种：基于内存的流式处理和基于硬盘的存储处理。
       流式处理就好象是在经过的数据面前建一道水闸。数据流过这里，经过闸门的时候，就进行筛选过滤，分析出有价值的内容，然后丢弃，以后也不再使用。
       存储处理则是建一个储水池。数据先放进入储水池存起来，需要的时候，再进到储水池里，在里面筛选分析，找到那些有价值的内容。这个过程中，因为水还在储水池里，没放掉，所以可以供下次继续使用。
       存储模式的数据处理是可以重复的，用完再用，反复使用。但是因为硬盘本身的机械特性问题，导致它处理速度慢，速率不高。不过现在也还是有一些针对硬盘的优化措施。
       流式处理因为数据的处理过程在内存里进行，内存的处理性能是硬盘的数个量级，所以它的处理速率比存储模式高很多。但是也因为数据驻留在内存里，内存的特性是掉电即失的，只能一次性使用。所以流式处理通常是用完即弃，象卫生巾。
       大数据产品里，Spark是流式处理，Laxcus、Hadoop是存储处理。

posted on 2015-04-25 07:35 laxcus 阅读(1068) 评论(0) 收藏举报