随笔分类 -  大数据

摘要:转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者。 简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取 阅读全文
posted @ 2017-12-28 17:54 ^_TONY_^ 阅读(603) 评论(0) 推荐(1) 编辑
摘要:转自https://tech.meituan.com/spark-tuning-pro.html,感谢原作者的贡献 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性 阅读全文
posted @ 2017-12-28 12:46 ^_TONY_^ 阅读(746) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/leesf456/p/6022357.html http://www.cnblogs.com/leesf456/p/6028416.html 阅读全文
posted @ 2017-12-12 17:38 ^_TONY_^ 阅读(414) 评论(0) 推荐(0) 编辑
摘要:Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项 阅读全文
posted @ 2017-12-12 12:47 ^_TONY_^ 阅读(16816) 评论(0) 推荐(0) 编辑
摘要:本文转载自http://www.cnblogs.com/cyfonly/p/5954614.html 一、为什么需要消息系统 二、kafka 架构 2.1 拓扑结构 如下图: 图.1 2.2 相关概念 如图.1中,kafka 相关名词解释如下: 2.3 zookeeper 节点 kafka 在 zo 阅读全文
posted @ 2017-12-12 10:59 ^_TONY_^ 阅读(5640) 评论(0) 推荐(1) 编辑
摘要:本文转自:http://tech.meituan.com/spark-tuning-basic.html 感谢原作者 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种 阅读全文
posted @ 2017-12-11 14:31 ^_TONY_^ 阅读(936) 评论(0) 推荐(0) 编辑
摘要:当使用sparkstreaming处理流式数据的时候,它的数据源搭档大部分都是Kafka,尤其是在互联网公司颇为常见。 当他们集成的时候我们需要重点考虑就是如果程序发生故障,或者升级重启,或者集群宕机,它究竟能否做到数据不丢不重呢? 也就是通常我们所说的高可靠和稳定性,通常框架里面都带有不同层次的消 阅读全文
posted @ 2017-12-11 13:58 ^_TONY_^ 阅读(2142) 评论(1) 推荐(0) 编辑
摘要:1、简介 Spark Streaming处理的数据流图: Spark Streaming在内部的处理机制是,接收实时流的数据,并根据一定的时间间隔拆分成一批批的数据,然后通过Spark Engine处理这些批数据,最终得到处理后的一批批结果数据。 对应的批数据,在Spark内核对应一个RDD实例,因 阅读全文
posted @ 2017-12-08 17:44 ^_TONY_^ 阅读(3534) 评论(0) 推荐(1) 编辑
摘要:RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD内部可以有许多分区(partitions),每个分区又拥有大量的记录(records)。 五个特征: dep 阅读全文
posted @ 2017-12-04 15:35 ^_TONY_^ 阅读(19489) 评论(0) 推荐(2) 编辑
摘要:一、 广播变量 广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。 Spark的动作通过一系列的步骤执行,这些步骤由分布式的洗牌操作分开。Spark自 阅读全文
posted @ 2017-12-03 23:15 ^_TONY_^ 阅读(3710) 评论(0) 推荐(0) 编辑
摘要:Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消耗. 阅读全文
posted @ 2017-12-03 23:13 ^_TONY_^ 阅读(2889) 评论(0) 推荐(0) 编辑
摘要:Spark On Yarn的优势 每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Spark支持资源动态共享,运行于Yarn的框架都共享一个集中配置好的资源池 2. 可以很方便的利用Ya 阅读全文
posted @ 2017-12-03 21:21 ^_TONY_^ 阅读(18904) 评论(2) 推荐(9) 编辑
摘要:yum install -y ntp gcc make lrzsz wget vim sysstat.x86_64 xinetd screen expect rsync bind-utils iotop dstat nethogs openssl-devel openssh-clients 1) 配 阅读全文
posted @ 2017-11-18 16:02 ^_TONY_^ 阅读(1852) 评论(0) 推荐(0) 编辑
摘要:观察报错的主要信息: 用户yarn在改文件上执行写操作时被权限系统拒绝, parquet文件的权限为755 Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他 阅读全文
posted @ 2017-11-01 17:04 ^_TONY_^ 阅读(14693) 评论(0) 推荐(0) 编辑
摘要:1、limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。 有一个配置属性可以开启,避免这种情况 对数据源进行抽样 hive.limit.optimize.enable=true 开启对数据源进行采样的功能 hive.limit.row.max.size 设置最 阅读全文
posted @ 2017-10-17 17:45 ^_TONY_^ 阅读(14134) 评论(1) 推荐(2) 编辑
摘要:一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎: 阅读全文
posted @ 2017-10-17 12:30 ^_TONY_^ 阅读(44196) 评论(1) 推荐(1) 编辑
摘要:一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个 阅读全文
posted @ 2017-10-16 17:25 ^_TONY_^ 阅读(57942) 评论(0) 推荐(11) 编辑
摘要:背景 写这篇文章主要是介绍一下我做数据仓库ETL同步的过程中遇到的一些有意思的内容和提升程序运行效率的过程。 关系型数据库: 项目初期:游戏的运营数据比较轻量,相关的运营数据是通过Java后台程序聚合查询关系型数据库MySQL完全可以应付,系统通过定时任务每日统计相关数据,等待运营人员查询即可。 项 阅读全文
posted @ 2017-09-29 18:14 ^_TONY_^ 阅读(10975) 评论(1) 推荐(1) 编辑
摘要:后续个人的一些技术总结文章会写在自己的个人博客上:欢迎关注:xxx Ps:技术探讨欢迎提 issue 或者 email。 QQ:1170382650 邮箱:1170382650@qq.com Java Java基础 深入理解Java:String CoreJava:异常 CoreJava:泛型 深入 阅读全文
posted @ 2017-09-24 00:58 ^_TONY_^ 阅读(1465) 评论(1) 推荐(3) 编辑
摘要:原文转自:https://tech.meituan.com/namenode.html 感谢原作者 一、概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群 阅读全文
posted @ 2014-09-12 14:07 ^_TONY_^ 阅读(3947) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示