07 2020 档案
摘要:Spark流式计算程序要想运行顺畅,也需要一些基本的调优,总结一下主要在两个方向: 每个批次的处理时间尽可能短。 收到数据后,尽可能地处理。 1.减少批处理的时间 一是增加数据接收的并发数量,尤其是当瓶颈发生在数据接收的时候。默认每个Input DStream都只会创建一个接收器,运行在某个节点上,
阅读全文
摘要:一.什么是机器学习? 什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。 平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能
阅读全文
摘要:一.DStream的两类操作 DStream内部其实是RDD序列,所有的DStream操作最终都转换为RDD操作。通过分析源码,可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性: 依赖的其它DStream列表。 生成RDD的时间间隔。 一个名为compute的计算函数
阅读全文
摘要:一.简介 拼写检查是个不错的功能,不过还可以根据用户的输入给出建议查询词,从最开始就避免拼写错误。在移动端中“胖手指失误”是很常见的。自动建议就能发挥很大的作用。 效果如下: 一般情况下,自动建议功能需要满足两个要求: 1.速度快。一个笨重的输入方案不能跟上用户的输入节奏,没有比这更让人恼火的了。建
阅读全文