总结一年以来的工作经历

2019年秋招签订合同,春招的时候违约了,哎一言难尽(很多问题促成了我做出了这个决定,现在主要从事数据开发,偏向数据仓库方向。

公司是一家从事数据产品的公司(现在还没有上市),我这个部门数据数据中台,简单的说会负责公司所有业务线的数据输出。另外还有少量的模型开发,最重要的用户画像开发。下面也会从这几点简单的记录下开发经历。

 

业务线数据输出

这一点介绍之前先记录下数据的流向,公司数据来源主要来自于SDK,不同SDK的数据生成不同的日志文件。

(1)这些日志文件首先做第一次ETL清洗,并生成一个唯一的设备ID。

(2)接着这部分数据会进行第二次etl清洗,统一口径,格式化,字段统一,黑名单清洗等等。

(3)部分etl数据会被用来更新维度表,标签等等。大部分数据会基于不同的主题生成宽表,由宽表生成,轻度聚合表,公共表以及业务线专用表等等。

 

其中包含血缘系统,数据自动校验(QC)平台,标签系统等等

hive是基于hive的hook功能,spark生成的表,通过算子整出来的是看不出的。QC主要是通过监测表的元数据发生变化,比如新增分区,插入数据等等会触发QC的check机制。

上面的基本上全是偏业务方面的。。。

 

用户画像开发

主要是基于用户信息的相关标签统计,主要包含以下几个方向,通过统计,统计+模型,预测,模型,评分这几方面。

统计  用户近多少天做了什么样的事情

统计+模型  xx权重

评分 根据设定的强规则打分

模型  。。。。 

预测  。。。。

 

数据仓库重构

这部分主要是偏向设计,公司当时表依赖复杂,业务推进难度特别大,所以推了这个。

etl -> 不同主题宽表 ->不同主题的轻度汇总表 ->公共表

                                                                         ->业务表

独立出来很多 维度表,模型表,评分表等等

 

其他杂七杂八的话

hive的UDF,UDTF,UDAF等等吧 

地理位置方面的geohash方面的应用等等 

HIVE 调优,spark 调优

 

收获还是有很多的,但是感觉太偏业务了,很多技术原理不是很熟悉

hbase  flink  druid  spark streaming, spark graph 

相关算法 

词向量训练NLP,机器学习 等等吧 哎好多

posted on 2020-07-04 16:47  叶子不要闹  阅读(209)  评论(0编辑  收藏  举报