2019年3月13日
摘要: 如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后,来自 阅读全文
posted @ 2019-03-13 10:02 lilingui 阅读(330) 评论(0) 推荐(0) 编辑
  2016年5月21日
摘要: 本期概览: ReceiverTracker架构设计 消息循环系统 ReceiverTracker具体的实现 Spark Streaming作为Spark Core基础 架构之上的一个应用程序,其中的ReceiverTracker接收到数据之后,具体该怎么进行数据处理呢? 为了弄清楚这个问题,首先,我 阅读全文
posted @ 2016-05-21 19:19 lilingui 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制。 本期概览: 数据接收全生命周期的思考 大数据处理框架中,最重要的就是性能,性能是排在前面的。其次再考虑其他的。因为数据量大,一不小心的多余的操作,几分钟,十几分钟就过去了。 根据一般的架构设计原则,接收数据和存储数据 阅读全文
posted @ 2016-05-21 19:18 lilingui 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制。 本期概览: 1 Receiver生命全周期 首先,我们找到数据来源的入口,入口如下 Receiver的设计是极其巧妙的。它的设计非常的出色,很多的地方都值得我们认真的学习。 在深入认识Receiver之前,我们有必要 阅读全文
posted @ 2016-05-21 19:17 lilingui 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 本期概览: ReceiverTracker架构设计 消息循环系统 ReceiverTracker具体的实现 Spark Streaming作为Spark Core基础 架构之上的一个应用程序,其中的ReceiverTracker接收到数据之后,具体该怎么进行数据处理呢? 为了弄清楚这个问题,首先,我 阅读全文
posted @ 2016-05-21 19:15 lilingui 阅读(152) 评论(0) 推荐(0) 编辑
  2016年5月5日
摘要: Spark Streaming事务处理彻底掌握 感谢DT大数据梦工厂支持提供以下内容,DT大数据梦工厂专注于Spark发行版定制。 内容概括: 1Exactly once 2 输出不重复 1 正如银行转账业务一样,如果你给一个朋友转账一次,银行的系统必须保证此次的转账数据有且只能处理一次,不能出现另 阅读全文
posted @ 2016-05-05 07:27 lilingui 阅读(647) 评论(0) 推荐(0) 编辑
  2015年12月24日
摘要: 这一节视频讲解了Spark在大数据系统中绝对的优势等,是未来的大数据之星。1,《大数据不眠夜:Spark内核天机解密(共140讲)》:填写图片摘要(选填)51CTO在线观看(支持手机、平板、PC):http://edu.51cto.com/course/course_id-4703.html百度云下... 阅读全文
posted @ 2015-12-24 22:24 lilingui 阅读(113) 评论(0) 推荐(0) 编辑