随笔分类 - Java
-
Java 流处理之收集器
摘要:Java 流(Stream)处理操作完成之后,我们可以收集这个流中的元素,使之汇聚成一个最终结果。这个结果可以是一个对象,也可以是一个集合,甚至可以是一个基本类型数据。 阅读全文
-
Config:用户属性配置框架
摘要:Config 是一个用户属性配置框架,它基于 Xbatis 实现,可以在 SpringBoot 应用环境中使用,对于某一个配置属性:属性可以有默认值,不同的用户可以有不同的属性值,可以动态更新属性值。 阅读全文
-
Json:Java对象和Json文本转换工具类
摘要:Json 是一个用于 Java 对象 和 Json 文本 相互转换的工具类。 阅读全文
-
Java Code Style
摘要:近期困惑于团队成员代码风格迥异,代码质量不可控,作为一名老司机,忧患于后期服务的可维护性,多次一对一的代码Review,耗时耗力不说,效果也不明显。痛定思痛,多次反思之后得出结论:无规矩不成方圆,可靠的服务必须建立在统一的代码风格基础之上,仅仅提倡是远远不够的,必须使用有效的可执行机制,确保最终效果 阅读全文
-
Flume FileChannel优化(扩展)实践指南
摘要:本文系微博运维数据平台(DIP)在Flume方面的优化扩展经验总结,在使用Flume FileChannel的场景下将吞吐率由10M/s~20M/s提升至80M/s~90M/s,分为四个部分进行介绍: 应用场景 Flume实例架构 Flume调试及优化扩展 Flume Todo 生产环境部署 1. 阅读全文
-
设计模式:Observer(观察者)—— Guava EventBus
摘要:本文分为三个部分: Observer(观察者) Guava EventBus详解 Guava EventBus使用示例 1. Observer(观察者) 1.1 背景 我们设计系统时,常常会将系统分割为一系列相互协作的类,使得这些类之间可以各自独立地复用,系统整体结构也会比较清晰。这是一种最基本的面 阅读全文
-
Hadoop Yarn内存资源隔离实现原理——基于线程监控的内存隔离方案
摘要:<!--?xml version="1.0" encoding="UTF-8" standalone="no"?--> 阅读全文
-
Hadoop RCFile存储格式详解(源码分析、代码示例)
摘要:RCFileRCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件。关键词:Record、Columnar、Key、Value。RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识... 阅读全文
-
PySpark关于HDFS文件(目录)输入、数据格式的探讨
摘要:背景平台HDFS数据存储规则是按照“数据集/天目录/小时目录/若干文件”进行的,其中数据集是依据产品线或业务划分的。用户分析数据时,可能需要处理以下五个场景:(一)分析指定数据集、指定日期、指定小时、指定文件的数据;(二)分析指定数据集、指定日期、指定小时的数据;(三)分析指定数据集、指定日期的数据... 阅读全文
-
Spark SQL JSON数据处理
摘要:背景这一篇可以说是“HiveJSON数据处理的一点探索”的兄弟篇。平台为了加速即席查询的分析效率,在我们的Hadoop集群上安装部署了Spark Server,并且与我们的Hive数据仓库共享元数据。也就是说,我们的用户即可以通过HiveServer2使用Hive SQL执行MapReduce分析数... 阅读全文
-
Hive JSON数据处理的一点探索
摘要:背景JSON是一种轻量级的数据格式,结构灵活,支持嵌套,非常易于人的阅读和编写,而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互,因此大量的系统使用JSON作为日志存储格式。使用Hive分析数据(均指文本)之前,首先需要为待分析的数据建立一张数据表,然后才可以使用Hive SQL分析... 阅读全文
-
jmap(Memory Map For Java)
摘要:功能jmap(Memory Map For Java)命令用于生成堆转储快照(一般称为heaphump或dump文件)。如果不使用jmap命令,要想获取Java堆转储快照还有一些比较“暴力”的手段:使用-XX:HeapDumpOnOutOfMemoryError参数,可以让虚拟机在OOM异常出现之后... 阅读全文