摘要: 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP 阅读全文
posted @ 2019-04-05 21:21 Levyxu胖胖 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 1、hadoop 工作原理: a.首先 概括里面的角色(HDFS 、Mapreduce) b.讲解各个角色的整体架构 HDFS: 概念: 分布式文件系统,用于海量数据存储。 架构: master/slave 架构 :1个Namenode和多个Ddatanode。 工作原理: Namenode:(项目 阅读全文
posted @ 2019-04-05 21:13 Levyxu胖胖 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 1. Spark rdd生成过程· Spark的任务调度分为四步 1RDD objects RDD的准备阶段,组织RDD及RDD的依赖关系生成大概的RDD的DAG图,DAG图是有向环图。 2DAG scheduler 细分RDD中partition的依赖关系确定那些是宽依赖那些是窄依赖,生成更详细的 阅读全文
posted @ 2019-04-05 21:10 Levyxu胖胖 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 1、大数据组件Yarn:大数据组件运行的job的管理器Spark:分布式的利用内存进行分布式运算的大数据组件Hbase:基于Hadoop的大数据常用数据库Hive:基于Hadoop的大数据数据仓库,操作和关系型数据库(MySQL)类似 2、hdfs文件系统中NameNode和DataNode的区别和 阅读全文
posted @ 2019-04-05 21:06 Levyxu胖胖 阅读(398) 评论(0) 推荐(0) 编辑
摘要: HDFS优化之实战经验 Linux系统优化 一、禁止文件系统记录时间 Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁 阅读全文
posted @ 2019-04-05 20:57 Levyxu胖胖 阅读(1891) 评论(0) 推荐(0) 编辑
摘要: 参照官方文档:http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html1)对YARN调优: 我们实际是2颗CPU,一共24核心数,上面的服务用掉了5核,还剩 阅读全文
posted @ 2019-04-05 20:53 Levyxu胖胖 阅读(478) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如 阅读全文
posted @ 2019-04-05 20:44 Levyxu胖胖 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 最近在生产中遇到了一个需求,前台给我多个rowkey的List,要在hbase中查询多个记录(返回给前台list)。在网上也查了很多,不过自己都不太满意,filter的功能有可能查询结果不是准确值,而网上给出的get方法也都是返回一条,scan的话都是返回全部数据,还有用rowkey范围查询的,都跟 阅读全文
posted @ 2019-04-05 20:42 Levyxu胖胖 阅读(3330) 评论(0) 推荐(0) 编辑
摘要: 比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系,可以有以下几类值供选择: EQUAL 相等 GREATER 大于 GREATER_OR_EQUAL 大于等于 LESS 小于 LESS_OR_EQUAL 小于等于 NOT_EQUAL 不等于 比较器 ByteArr 阅读全文
posted @ 2019-04-05 20:41 Levyxu胖胖 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 对于数据操作,HBase支持四类主要的数据操作,分别是: Put :增加一行,修改一行 Delete :删除一行,删除指定列族,删除指定column的多个版本,删除指定column的制定版本等 Get :获取指定行的所有信息,获取指定行和指定列族的所有colunm,获取指定column,获取指定co 阅读全文
posted @ 2019-04-05 20:38 Levyxu胖胖 阅读(718) 评论(0) 推荐(0) 编辑