摘要: 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP 阅读全文
posted @ 2019-04-05 21:21 Levyxu胖胖 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 1、hadoop 工作原理: a.首先 概括里面的角色(HDFS 、Mapreduce) b.讲解各个角色的整体架构 HDFS: 概念: 分布式文件系统,用于海量数据存储。 架构: master/slave 架构 :1个Namenode和多个Ddatanode。 工作原理: Namenode:(项目 阅读全文
posted @ 2019-04-05 21:13 Levyxu胖胖 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 1. Spark rdd生成过程· Spark的任务调度分为四步 1RDD objects RDD的准备阶段,组织RDD及RDD的依赖关系生成大概的RDD的DAG图,DAG图是有向环图。 2DAG scheduler 细分RDD中partition的依赖关系确定那些是宽依赖那些是窄依赖,生成更详细的 阅读全文
posted @ 2019-04-05 21:10 Levyxu胖胖 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 1、大数据组件Yarn:大数据组件运行的job的管理器Spark:分布式的利用内存进行分布式运算的大数据组件Hbase:基于Hadoop的大数据常用数据库Hive:基于Hadoop的大数据数据仓库,操作和关系型数据库(MySQL)类似 2、hdfs文件系统中NameNode和DataNode的区别和 阅读全文
posted @ 2019-04-05 21:06 Levyxu胖胖 阅读(391) 评论(0) 推荐(0) 编辑
摘要: HDFS优化之实战经验 Linux系统优化 一、禁止文件系统记录时间 Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁 阅读全文
posted @ 2019-04-05 20:57 Levyxu胖胖 阅读(1855) 评论(0) 推荐(0) 编辑
摘要: 参照官方文档:http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html1)对YARN调优: 我们实际是2颗CPU,一共24核心数,上面的服务用掉了5核,还剩 阅读全文
posted @ 2019-04-05 20:53 Levyxu胖胖 阅读(470) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如 阅读全文
posted @ 2019-04-05 20:44 Levyxu胖胖 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 最近在生产中遇到了一个需求,前台给我多个rowkey的List,要在hbase中查询多个记录(返回给前台list)。在网上也查了很多,不过自己都不太满意,filter的功能有可能查询结果不是准确值,而网上给出的get方法也都是返回一条,scan的话都是返回全部数据,还有用rowkey范围查询的,都跟 阅读全文
posted @ 2019-04-05 20:42 Levyxu胖胖 阅读(3280) 评论(0) 推荐(0) 编辑
摘要: 比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系,可以有以下几类值供选择: EQUAL 相等 GREATER 大于 GREATER_OR_EQUAL 大于等于 LESS 小于 LESS_OR_EQUAL 小于等于 NOT_EQUAL 不等于 比较器 ByteArr 阅读全文
posted @ 2019-04-05 20:41 Levyxu胖胖 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 对于数据操作,HBase支持四类主要的数据操作,分别是: Put :增加一行,修改一行 Delete :删除一行,删除指定列族,删除指定column的多个版本,删除指定column的制定版本等 Get :获取指定行的所有信息,获取指定行和指定列族的所有colunm,获取指定column,获取指定co 阅读全文
posted @ 2019-04-05 20:38 Levyxu胖胖 阅读(695) 评论(0) 推荐(0) 编辑
摘要: 相信长时间运维HBase集群的童鞋肯定都会对RIT(Region-In-Transition,很多参考资料误解为Region-In-Transaction,需要注意)有一种咬牙切齿的痛恨感,一旦Region处于长时间的RIT就会有些不知所措,至少以前的我就是这样过来的。正所谓“恐惧来源于未知”,不知 阅读全文
posted @ 2019-04-05 20:31 Levyxu胖胖 阅读(685) 评论(0) 推荐(0) 编辑
摘要: 任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大 阅读全文
posted @ 2019-04-05 20:29 Levyxu胖胖 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能。和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小达到一定阈值(128M)之后,系统会异步将Memstore中数据flush到HDFS形成小文件。 本 阅读全文
posted @ 2019-04-05 20:22 Levyxu胖胖 阅读(529) 评论(0) 推荐(0) 编辑
摘要: HBase的查询实现只提供两种方式:1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get) 2、按指定的条件获取一批记录,scan方法(org.apache.Hadoop.Hbase.client.Scan) 实现条件查询功能使用的 阅读全文
posted @ 2019-04-05 20:16 Levyxu胖胖 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnblogs.com/panfeng412/archive/2013/11/28/hbase-batch-put-performance-analysis-of-single-column 阅读全文
posted @ 2019-04-05 20:13 Levyxu胖胖 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 背景:HBase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对HBase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,HBase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对HBase 阅读全文
posted @ 2019-04-05 20:10 Levyxu胖胖 阅读(822) 评论(0) 推荐(0) 编辑