2019 年 4月 5 日随笔档案 - Levyxu胖胖

2019年4月5日

摘要： 1、海量日志数据，提取出某日访问百度次数最多的那个IP。解决方案：首先是将这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP 阅读全文

posted @ 2019-04-05 21:21 Levyxu胖胖阅读(241) 评论(0) 推荐(0) 编辑

大数据开发认知--架构

摘要： 1、hadoop 工作原理： a.首先概括里面的角色（HDFS 、Mapreduce） b.讲解各个角色的整体架构 HDFS：概念：分布式文件系统，用于海量数据存储。架构： master/slave 架构：1个Namenode和多个Ddatanode。工作原理： Namenode：(项目阅读全文

posted @ 2019-04-05 21:13 Levyxu胖胖阅读(271) 评论(0) 推荐(0) 编辑

大数据开发认知--spark

摘要： 1. Spark rdd生成过程· Spark的任务调度分为四步 1RDD objects RDD的准备阶段，组织RDD及RDD的依赖关系生成大概的RDD的DAG图，DAG图是有向环图。 2DAG scheduler 细分RDD中partition的依赖关系确定那些是宽依赖那些是窄依赖，生成更详细的阅读全文

posted @ 2019-04-05 21:10 Levyxu胖胖阅读(282) 评论(0) 推荐(0) 编辑

大数据认知

摘要： 1、大数据组件Yarn：大数据组件运行的job的管理器Spark：分布式的利用内存进行分布式运算的大数据组件Hbase：基于Hadoop的大数据常用数据库Hive：基于Hadoop的大数据数据仓库，操作和关系型数据库（MySQL）类似 2、hdfs文件系统中NameNode和DataNode的区别和阅读全文

posted @ 2019-04-05 21:06 Levyxu胖胖阅读(391) 评论(0) 推荐(0) 编辑

HDFS配置参数及优化之实战经验（Linux hdfs）

摘要： HDFS优化之实战经验 Linux系统优化一、禁止文件系统记录时间 Linux文件系统会记录文件创建、修改和访问操作的时间信息，这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间，这对HDFS这种读取操作频繁阅读全文

posted @ 2019-04-05 20:57 Levyxu胖胖阅读(1855) 评论(0) 推荐(0) 编辑

hdfs性能调优(cloudera)

摘要：参照官方文档：http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html1）对YARN调优：我们实际是2颗CPU，一共24核心数，上面的服务用掉了5核，还剩阅读全文

posted @ 2019-04-05 20:53 Levyxu胖胖阅读(470) 评论(0) 推荐(0) 编辑

Hive性能优化上的一些总结

摘要： https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如阅读全文

posted @ 2019-04-05 20:44 Levyxu胖胖阅读(267) 评论(0) 推荐(0) 编辑

HBase根据Rowkey批量查询数据JAVA API(一次查多条，返回多个记录)

摘要：最近在生产中遇到了一个需求，前台给我多个rowkey的List，要在hbase中查询多个记录（返回给前台list）。在网上也查了很多，不过自己都不太满意，filter的功能有可能查询结果不是准确值，而网上给出的get方法也都是返回一条，scan的话都是返回全部数据，还有用rowkey范围查询的，都跟阅读全文

posted @ 2019-04-05 20:42 Levyxu胖胖阅读(3280) 评论(0) 推荐(0) 编辑

HBase Filter及对应Shell

摘要：比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系，可以有以下几类值供选择： EQUAL 相等 GREATER 大于 GREATER_OR_EQUAL 大于等于 LESS 小于 LESS_OR_EQUAL 小于等于 NOT_EQUAL 不等于比较器 ByteArr 阅读全文

posted @ 2019-04-05 20:41 Levyxu胖胖阅读(288) 评论(0) 推荐(0) 编辑

HBase API 基础操作

摘要：对于数据操作，HBase支持四类主要的数据操作，分别是： Put ：增加一行，修改一行 Delete ：删除一行，删除指定列族，删除指定column的多个版本，删除指定column的制定版本等 Get ：获取指定行的所有信息，获取指定行和指定列族的所有colunm，获取指定column，获取指定co 阅读全文

posted @ 2019-04-05 20:38 Levyxu胖胖阅读(695) 评论(0) 推荐(0) 编辑

HBase运维实践－聊聊RIT的那点事

摘要：相信长时间运维HBase集群的童鞋肯定都会对RIT（Region-In-Transition，很多参考资料误解为Region-In-Transaction，需要注意）有一种咬牙切齿的痛恨感，一旦Region处于长时间的RIT就会有些不知所措，至少以前的我就是这样过来的。正所谓“恐惧来源于未知”，不知阅读全文

posted @ 2019-04-05 20:31 Levyxu胖胖阅读(685) 评论(0) 推荐(0) 编辑

HBase读延迟的12种优化套路

摘要：任何系统都会有各种各样的问题，有些是系统本身设计问题，有些却是使用姿势问题。HBase也一样，在真实生产线上大家或多或少都会遇到很多问题，有些是HBase还需要完善的，有些是我们确实对它了解太少。总结起来，大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大阅读全文

posted @ 2019-04-05 20:29 Levyxu胖胖阅读(264) 评论(0) 推荐(0) 编辑

HBase最佳实践－写性能优化策略

摘要：本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能。和读相比，HBase写数据流程倒是显得很简单：数据先顺序写入HLog，再写入对应的缓存Memstore，当Memstore中数据大小达到一定阈值(128M)之后，系统会异步将Memstore中数据flush到HDFS形成小文件。本阅读全文

posted @ 2019-04-05 20:22 Levyxu胖胖阅读(529) 评论(0) 推荐(0) 编辑

HBase scan setBatch和setCaching的区别

摘要： HBase的查询实现只提供两种方式：1、按指定RowKey获取唯一一条记录，get方法（org.apache.hadoop.hbase.client.Get） 2、按指定的条件获取一批记录，scan方法（org.apache.Hadoop.Hbase.client.Scan）实现条件查询功能使用的阅读全文

posted @ 2019-04-05 20:16 Levyxu胖胖阅读(339) 评论(0) 推荐(0) 编辑

HBase在单Column和多Column情况下批量Put的性能对比分析

摘要：作者: 大圆那些事 | 文章可以转载，请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2013/11/28/hbase-batch-put-performance-analysis-of-single-column 阅读全文

posted @ 2019-04-05 20:13 Levyxu胖胖阅读(304) 评论(0) 推荐(0) 编辑

【HBase调优】Hbase万亿级存储性能优化总结

摘要：背景：HBase主集群在生产环境已稳定运行有1年半时间，最大的单表region数已达7200多个，每天新增入库量就有百亿条，对HBase的认识经历了懵懂到熟的过程。为了应对业务数据的压力，HBase入库也由最初的单机多线程升级为有容灾机制的分布式入库，为及早发现集群中的问题，还开发了一套对HBase 阅读全文

posted @ 2019-04-05 20:10 Levyxu胖胖阅读(822) 评论(0) 推荐(0) 编辑

Levyxu胖胖

公告