09 2016 档案

摘要:原以为,用sparkR不能做map操作, 搜了搜发现可以。 lapply等同于map, 但是不能操作spark RDD. spark2.0以后, sparkR增加了 dapply, dapplycollect 可以操作spark RDD. 原文地址: http://www.2cto.com/kf/2 阅读全文
posted @ 2016-09-18 13:55 问道大数据 阅读(2259) 评论(0) 推荐(0) 编辑
摘要:用百度地图API解决实际如下问题 1. 如何用百度地图API查询一个地点的经纬度? 2. 如何用百度地图通过一个经纬度查询商圈和地址? 3.点击百度地图时, 获得点击位置的经纬度? 4. 如果按照时间轴动态显示热力图的变化? 阅读全文
posted @ 2016-09-10 17:27 问道大数据 阅读(14205) 评论(0) 推荐(1) 编辑
摘要:Transformer: 是一个抽象类包含特征转换器, 和最终的学习模型, 需要实现transformer方法 通常transformer为一个RDD增加若干列, 最终转化成另一个RDD, 1. 特征转换器通常处理一个dataset, 把其中一列数据转化成一列新的数据。 并且把新的数据列添加到dat 阅读全文
posted @ 2016-09-08 20:43 问道大数据 阅读(3147) 评论(0) 推荐(0) 编辑
摘要:答案: 两个坑, 性能坑和线程坑 DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口等机制来保证每个微批次的时间间隔里, 数据流以RDD的形式发送给spark做进一 阅读全文
posted @ 2016-09-08 15:00 问道大数据 阅读(20952) 评论(0) 推荐(0) 编辑
摘要:问题: 把 文本字符串"[1, 2, 3, 4, 5]" 转换成一个数组。 答案: val x = "[1, 2, 3, 4, 5]" val y =x slice(1, x.length-1) replace(",","") split(" ") var y1= x slice(1, x.leng 阅读全文
posted @ 2016-09-07 16:53 问道大数据 阅读(1366) 评论(0) 推荐(0) 编辑