摘要:
Maven 安装及配置大体可以划分为三个步骤:下载、安装和配置。 下载 打开 Maven 官方下载页面:https://maven.apache.org/download.cgi#,点击下载链接即可开始下载: 以 Maven 3.8.4 为例,解压后可以看到文件夹:apache-maven-3.8. 阅读全文
2021年12月1日
2021年11月4日
摘要:
创业的这段时间,我自己的精力聚集于产品研发相关的工作,业务这块儿由另一位合伙人负责。虽然工作的内部由“后台"(大数据)切换到“前台”(小程序),但是自己从业多年,一直相信做技术练的是内功,招式则是一通百通的,很多地方的思维是可以借鉴或直接复用的,顺利地渡过新技术栈的磨合期之后,搞起来很是游刃有余。 阅读全文
2020年8月11日
摘要:
前言 目前,AnalysisQl 数据视图的元数据(维度、指标、指标计算器)需要通过代码(API)或资源文件的形式硬编码,应用启动时,按照声明的顺序依次注册。这种模式下,数据视图是 静态 的,任何一项变更都需要重新升级发布应用服务,不利于服务快速迭代。 考虑到这种情况,AnalysisQl 在保留原 阅读全文
2020年7月13日
摘要:
本文介绍的指标库、查询语言(DSL)、查询代理是我们团队自主研发的OLAP服务,在微博视频性能数据分析中取得很好地应用效果。通过技术优化的方式,在有限的计算资源范围内得到不错的性能表现,大幅降低数据接口、可视化及监控服务的开发成本。 同时,我们团队也在准备项目开源(https://github.com/weibodip/analysisql )的准备工作,有兴趣的同学可关注交流。 阅读全文
2020年6月29日
摘要:
前言 本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案。 关于这类问题的处理,有这么一种论调:我们认为正常情况下,脏 或 缺失 数据的比例是很小的,可以大致认为数据是可用的的;或者我们可 阅读全文
2020年5月26日
摘要:
Hive UDF使用资源文件及动态更新方案--后记 在 Hive UDF使用资源文件及动态更新方案 一文中,针对UDF动态更新的问题,提出解决方案:UDF仅使用业务接口,初始化时动态从位于HDFS的Jar文件中加载业务接口实现类;其中,业务接口及实现类与UDF一一对应。 通常情况下,业务接口仅包含一 阅读全文
摘要:
Hive UDF使用资源文件及动态更新方案 背景 注: 本文中的“函数”等同于UDF,默认情况下特指永久函数。 Hive 0.13版本开始支持自定义永久函数(Permanent Function),可以将函数注册到Hive Metastore,通过Hive/Beeline/Spark SQL可以直接 阅读全文
摘要:
Spark SQL ThriftServer 启动命令 默认情况下,Spark 日志目录 SPARK_LOG_DIR 指向 SPARK_HOME/logs,如因权限访问控制,可以通过显示设置环境变量 SPARK_LOG_DIR,将日志目录指向其它路径,如: export SPARK_LOG_DIR= 阅读全文
摘要:
前言 OKR这个名词最近两年在国内好像特别火,据说好多大厂都使用OKR替代KPI,我司也于去年年初的时候“风风火火”地搞过一阵,我也是借着这个机会才了解到OKR的基本概念:目标与关键结果(Objectives and Key Results),还煞有介事地买了一本《这就是OKR》研究了一下,只是后来 阅读全文
摘要:
团队工作建议 目标 两个明确 明确核心工作目标; 明确核心工作职责; PS:建议以季度或月为单位,思考清楚自己现阶段的主要工作内容是什么,如有疑问,请及时与团队负责人沟通。 两个保证 保证有效工作时间(50%+)投入到有效目标的达成过程中; 保证核心服务的稳定性; PS:工作过程中,如果出现因为业务 阅读全文