摘要:
连续两篇文章都聊了不同的存储格式,这篇我们继续深入来看看在存储格式的演变之上有什么新的 "黑科技" 。华为公司在2016年开源了类parquet的列存格式: CarbonData ,并且贡献给了Apache社区。CarbonData仅仅用了不到一年的时间就成功毕业,成为了Apache社区的顶级项目, 阅读全文
摘要:
上一篇文章聊了聊基于PAX的混合存储结构的RCFile,其实这里笔者还了解一些八卦,RCfile的主力团队都是来自中科院的童鞋在Facebook完成的,算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷,后续被 HortonWorks 盯上之后上马了 ORCFile 格式,而老对头 Cl 阅读全文
摘要:
C++11的版本在vector容器添加了 emplace_back方法 ,相对于原先的push_back方法能够在一定程度上提升vector容器的表现性能。所以我们从STL源码角度来切入,看看这两种方法有什么样的区别,新引进的方法又有什么可学习参考之处。 1.emplace_back的用法 empl 阅读全文
摘要:
前段时间一直在忙碌写毕设与项目的事情,很久没有写一些学习心得与工作记录了,开了一个新的坑,希望能继续坚持写作与记录分布式存储相关的知识。为什么叫小视角呢?因为属于随想型的内容,可能一个由小的视角来审视海量数据的存储与计算技术,把知识点分为两到三章来梳理。 管中窥豹,可见一斑,希望能利用这个过程提高自 阅读全文
摘要:
上一篇C++的博客是Long Long ago了,前文讲到在看 Lambda表达式 的内容。笔者首次接触Lambda表达式应该是学习Python语言的时候,当时也不太明白这种表达方式的精髓,后续接触了Scala与Java8的链式调用与Lambda结合的方式,深陷无法自拔。所以借上一篇闭包的内容。我们 阅读全文
摘要:
实验室拟态存储的项目需要通过LVS NAT模式通过LVS服务器来区隔内外网的服务,所以安全防护的重心则落在了LVS服务器之上。笔者最终选择 通过firewalld放行端口 的方式来实现需求,由于firewall与传统Linux使用的iptable工具有不小的区别,接下来通过博客来记录一下firewa 阅读全文
摘要:
终于来到这本书最后的一章了 "《Designing Data Intensive Applications》" 大部头,这本书应该是我近两年读过最棒的技术书籍。作者 "Martin Kleppmann" 帮助我们梳理了数据系统的纷繁复杂的技术逻辑,在这本书的最后,他将带领我们瞭望数据系统的未来,虽然 阅读全文
摘要:
由于实验室拟态存储的项目需要通过NAT模式来映射NFS服务器已实现负载均衡的目的,通过调研了多种负载均衡机制,笔者最终选择了 LVS的NAT模式 来实现需求,接下来通过博客来记录一下LVS NAT模式的配置流程。 1.LVS服务的简介: LVS 是 Linux Virtual Server 的简写, 阅读全文
摘要:
上一篇聊了聊批处理的缺点,对于无界数据来说, 流处理 会是更好的选择,“流”指的是随着时间的推移逐步增加的数据。消息队列可以将这些流组织起来,快速的在应用程序中给予反馈。但是消息队列与传统的数据库之间又存在着“剪不断,理还乱”的“纠葛”,最后我们将探讨通过消息队列之中与时序有关的一些问题。 文件是批 阅读全文
摘要:
上篇的内容,我们探讨了分布式计算中的 MapReduce与批处理 。所以本篇我们将继续探索分布式计算优化的相关细节,并且分析MapReduce与批处理的局限性,看看 流式计算 是否能给我们在分布式计算层面提供一个更好的解决方案。 1.MapReduce的局限 MapReduce作业是独立于其他作业, 阅读全文