随笔分类 - 大数据

Hbase：原理和设计

摘要：转载自：http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ，感谢原作者。简介 HBase —— Hadoop Database的简称，Google BigTable的另一种开源实现方式，从问世之初，就为了解决用大量廉价的机器高速存取阅读全文

posted @ 2017-12-28 17:54 ^_TONY_^ 阅读(603) 评论(0) 推荐(1) 编辑

Spark性能优化指南-高级篇

摘要：转自https://tech.meituan.com/spark-tuning-pro.html，感谢原作者的贡献前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性阅读全文

posted @ 2017-12-28 12:46 ^_TONY_^ 阅读(746) 评论(0) 推荐(0) 编辑

zookeeper

摘要：https://www.cnblogs.com/leesf456/p/6022357.html http://www.cnblogs.com/leesf456/p/6028416.html 阅读全文

posted @ 2017-12-12 17:38 ^_TONY_^ 阅读(414) 评论(0) 推荐(0) 编辑

Kafka文件存储机制及offset存取

摘要：Kafka是什么 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项阅读全文

posted @ 2017-12-12 12:47 ^_TONY_^ 阅读(16816) 评论(0) 推荐(0) 编辑

Kafka基本架构及原理

摘要：本文转载自http://www.cnblogs.com/cyfonly/p/5954614.html 一、为什么需要消息系统二、kafka 架构 2.1 拓扑结构如下图：图.1 2.2 相关概念如图.1中，kafka 相关名词解释如下： 2.3 zookeeper 节点 kafka 在 zo 阅读全文

posted @ 2017-12-12 10:59 ^_TONY_^ 阅读(5640) 评论(0) 推荐(1) 编辑

Spark性能优化指南——基础篇

摘要：本文转自：http://tech.meituan.com/spark-tuning-basic.html 感谢原作者前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种阅读全文

posted @ 2017-12-11 14:31 ^_TONY_^ 阅读(936) 评论(0) 推荐(0) 编辑

SparkStreaming：关于checkpoint的弊端

摘要：当使用sparkstreaming处理流式数据的时候，它的数据源搭档大部分都是Kafka，尤其是在互联网公司颇为常见。当他们集成的时候我们需要重点考虑就是如果程序发生故障，或者升级重启，或者集群宕机，它究竟能否做到数据不丢不重呢？也就是通常我们所说的高可靠和稳定性，通常框架里面都带有不同层次的消阅读全文

posted @ 2017-12-11 13:58 ^_TONY_^ 阅读(2142) 评论(1) 推荐(0) 编辑

SparkStreaming基本架构及使用

摘要：1、简介 Spark Streaming处理的数据流图： Spark Streaming在内部的处理机制是，接收实时流的数据，并根据一定的时间间隔拆分成一批批的数据，然后通过Spark Engine处理这些批数据，最终得到处理后的一批批结果数据。对应的批数据，在Spark内核对应一个RDD实例，因阅读全文

posted @ 2017-12-08 17:44 ^_TONY_^ 阅读(3534) 评论(0) 推荐(1) 编辑

Spark RDD、DataFrame原理及操作详解

摘要：RDD是什么？ RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。 RDD内部可以有许多分区(partitions)，每个分区又拥有大量的记录(records)。五个特征： dep 阅读全文

posted @ 2017-12-04 15:35 ^_TONY_^ 阅读(19489) 评论(0) 推荐(2) 编辑

Spark 广播变量BroadCast

摘要：一、广播变量广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。 Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自阅读全文

posted @ 2017-12-03 23:15 ^_TONY_^ 阅读(3710) 评论(0) 推荐(0) 编辑

Spark基本架构及原理

摘要：Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消耗. 阅读全文

posted @ 2017-12-03 23:13 ^_TONY_^ 阅读(2889) 评论(0) 推荐(0) 编辑

Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析

摘要：Spark On Yarn的优势每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Spark支持资源动态共享，运行于Yarn的框架都共享一个集中配置好的资源池 2. 可以很方便的利用Ya 阅读全文

posted @ 2017-12-03 21:21 ^_TONY_^ 阅读(18904) 评论(2) 推荐(9) 编辑

大数据架构：搭建CDH5.5.1分布式集群环境

摘要：yum install -y ntp gcc make lrzsz wget vim sysstat.x86_64 xinetd screen expect rsync bind-utils iotop dstat nethogs openssl-devel openssh-clients 1) 配阅读全文

posted @ 2017-11-18 16:02 ^_TONY_^ 阅读(1852) 评论(0) 推荐(0) 编辑

Hadoop：hdfs文件permission denied问题解析

摘要：观察报错的主要信息：用户yarn在改文件上执行写操作时被权限系统拒绝, parquet文件的权限为755 Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者（owner）和一个组（group）。文件或目录对其所有者、同组的其他用户以及所有其他阅读全文

posted @ 2017-11-01 17:04 ^_TONY_^ 阅读(14693) 评论(0) 推荐(0) 编辑

大数据：Hive常用参数调优

摘要：1、limit限制调整一般情况下，Limit语句还是需要执行整个查询语句，然后再返回部分结果。有一个配置属性可以开启，避免这种情况对数据源进行抽样 hive.limit.optimize.enable=true 开启对数据源进行采样的功能 hive.limit.row.max.size 设置最阅读全文

posted @ 2017-10-17 17:45 ^_TONY_^ 阅读(14134) 评论(1) 推荐(2) 编辑

大数据：Parquet文件存储格式

摘要：一、Parquet的组成 Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定，目前能够和Parquet适配的组件包括下面这些，可以看出基本上通常使用的查询引擎和计算框架都已适配，并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。查询引擎: 阅读全文

posted @ 2017-10-17 12:30 ^_TONY_^ 阅读(44196) 评论(1) 推荐(1) 编辑

大数据：Hive - ORC 文件存储格式

摘要：一、ORC File文件结构 ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个阅读全文

posted @ 2017-10-16 17:25 ^_TONY_^ 阅读(57942) 评论(0) 推荐(11) 编辑

数据仓库：Mysql大量数据快速导出

摘要：背景写这篇文章主要是介绍一下我做数据仓库ETL同步的过程中遇到的一些有意思的内容和提升程序运行效率的过程。关系型数据库：项目初期：游戏的运营数据比较轻量，相关的运营数据是通过Java后台程序聚合查询关系型数据库MySQL完全可以应付，系统通过定时任务每日统计相关数据，等待运营人员查询即可。项阅读全文

posted @ 2017-09-29 18:14 ^_TONY_^ 阅读(10975) 评论(1) 推荐(1) 编辑

个人技术总结文章

摘要：后续个人的一些技术总结文章会写在自己的个人博客上：欢迎关注：xxx Ps：技术探讨欢迎提 issue 或者 email。 QQ：1170382650 邮箱：1170382650@qq.com Java Java基础深入理解Java：String CoreJava：异常 CoreJava：泛型深入阅读全文

posted @ 2017-09-24 00:58 ^_TONY_^ 阅读(1465) 评论(1) 推荐(3) 编辑

Hadoop：HDFS NameNode内存全景

摘要：原文转自：https://tech.meituan.com/namenode.html 感谢原作者一、概述从整个HDFS系统架构上看，NameNode是其中最重要、最复杂也是最容易出现问题的地方，而且一旦NameNode出现故障，整个Hadoop集群就将处于不可服务的状态，同时随着数据规模和集群阅读全文

posted @ 2014-09-12 14:07 ^_TONY_^ 阅读(3947) 评论(0) 推荐(1) 编辑

公告

夫学须静也,才须学也.非学无以广才,非志无以成学→_→^_^
① 编码实践，坚持在GitHub上写一些为了应用技术而应用的example。
② 读他人代码，各种开源框架的源码。
③ 多读书，多看Importnew、InfoQ之类的文章，多问，看到相似点时回过去看看自己做的是否还有改进的空间。
联系方式：
个人QQ：1170382650
微信：tang_liang_yun
邮箱：1170382650@qq.com
个人坐标：广州

昵称： ^_TONY_^
园龄： 12年10个月
粉丝： 1286
关注： 2

+加关注

tony~博客小屋

夫学须静也,才须学也.非学无以广才,非志无以成学→_→^_^

随笔分类 - 大数据

公告

积分与排名