摘要: 本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。 阅读全文
posted @ 2016-09-29 20:32 大数据从业者FelixZh 阅读(907) 评论(0) 推荐(0) 编辑
摘要: 1.起因 公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨,平日工作时间负载不是很高。但在工作时间内,公司业务人员有实时查询需求,现在主要 借助于hive提供业务人员日常查询。总所周知,hive是一个基于MR的类SQL查询工具,它会把输入的查询SQL解释 阅读全文
posted @ 2016-09-29 17:42 大数据从业者FelixZh 阅读(2572) 评论(0) 推荐(0) 编辑
摘要: SecureCR 下的文件传输协议有ASCII 、Xmodem 、Ymodem 、Zmodem ASCII:这是最快的传输协议,但只能传送文本文件。 Xmodem:这种古老的传输协议速度较慢,但由于使用了CRC错误侦测方法,传输的准确率可高达99.6%。 Ymodem:这是Xmodem的改良版,使用 阅读全文
posted @ 2016-09-29 16:08 大数据从业者FelixZh 阅读(50174) 评论(0) 推荐(1) 编辑
摘要: 前言 在当今每日信息量巨大的社会中,源源不断的数据需要被安全的存储.等到数据的规模越来越大的时候,也许瓶颈就来了,没有存储空间了.这时候怎么办,你也许会说,加机器解决,显然这是一个很简单直接但是又显得有些欠缺思考的办法.无谓的加机器只会带来无限上升的成本消耗,更好的办法应该是做到更加精细化的数据存储 阅读全文
posted @ 2016-09-29 15:45 大数据从业者FelixZh 阅读(13740) 评论(1) 推荐(1) 编辑