导航

[ITNews] 大数据分析让网络监视更廉价

Posted on 2012-10-03 11:21  YiDiscovery  阅读(294)  评论(0编辑  收藏  举报

原文自:Solidot


网络监视系统是设计快速对流量作出反应,如何高效的捕获和分析流量?数据包捕获工具不可能去捕获整个互联网的流量,例如两个网关之间的平均流量是每秒5gigabits,每日捕获的数据将达到54 terabytes左右,即便数据压缩率能达到10:1,储存开销也会增加到难以接受的程度。解决方法由两部分组成:首先,基于DPI的网络监控系统会预处理数据,它不捕获和储存完整的数据包,而是筛选出元数据,聚合电子邮件附件、IM和社交帖子等应用数据;其次是只监控网络的咽喉点,例如上行到骨干网的关口。一个高效的监控系统每秒能处理1.5 gigabytes的完整数据包,每天能处理129.6 terabytes。在预处理之后,每天petabytes级的原始网络数据可减少到gigabytes级的列表数据和应用数据。数据的进一步处理则在大容量高速数据储存管理技术如Hadoop,以及MapReduce和 BigTable等数据库技术的帮助下实现了实时和深入分析。例如Bivio的大数据流量分析工具NetFalcon,它的每个探针能每秒处理最高 10 gigabits,关联引擎能每秒处理超过100 gigabits,能将数周甚至数个月的流量和事件数据关联起来,允许对 petabytes级的数据快速查询和搜索。以匿名工具Tor为例,它设计绕过实时流量屏蔽,但通过搜索已知的洋葱路由出口节点,可以一路跟踪网络中的尾迹到原始系统。此类的系统具有长期的记忆,能发现长期内的流量模式,能在它们再次发生时立即识别出来。