摘要: spark支持语言: scala、paython、java 1:2:4 使用spark sql(中间的过滤、筛选) 三种性能一样。 spark 比 mapReduce快 cpu与内存比为1:2,或者1:4 RDD:弹性数据分布集 5个特性 对RDD测操作:1、transformation 2、Act 阅读全文
posted @ 2018-05-08 14:41 js王 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 数据来源:1、主动获取 2、被动获取 技术选择:1、storm (官方的、淘宝的):过来的数据要及时处理 2、flume :缺陷:处理流数据非常慢,优势:对流可以实施多层过滤 3、kafka :包括了flume的基本功能,对流的处理更快,缺陷:不能加过滤器(解决方案:flume+kafka) 4、s 阅读全文
posted @ 2018-05-08 11:04 js王 阅读(199) 评论(0) 推荐(0) 编辑