摘要:
spark支持语言: scala、paython、java 1:2:4 使用spark sql(中间的过滤、筛选) 三种性能一样。 spark 比 mapReduce快 cpu与内存比为1:2,或者1:4 RDD:弹性数据分布集 5个特性 对RDD测操作:1、transformation 2、Act 阅读全文
摘要:
数据来源:1、主动获取 2、被动获取 技术选择:1、storm (官方的、淘宝的):过来的数据要及时处理 2、flume :缺陷:处理流数据非常慢,优势:对流可以实施多层过滤 3、kafka :包括了flume的基本功能,对流的处理更快,缺陷:不能加过滤器(解决方案:flume+kafka) 4、s 阅读全文