总结一年以来的工作经历

2019年秋招签订合同，春招的时候违约了，哎一言难尽（很多问题促成了我做出了这个决定，现在主要从事数据开发，偏向数据仓库方向。

公司是一家从事数据产品的公司（现在还没有上市），我这个部门数据数据中台，简单的说会负责公司所有业务线的数据输出。另外还有少量的模型开发，最重要的用户画像开发。下面也会从这几点简单的记录下开发经历。

业务线数据输出

这一点介绍之前先记录下数据的流向，公司数据来源主要来自于SDK，不同SDK的数据生成不同的日志文件。

（1）这些日志文件首先做第一次ETL清洗，并生成一个唯一的设备ID。

（2）接着这部分数据会进行第二次etl清洗，统一口径，格式化，字段统一，黑名单清洗等等。

（3）部分etl数据会被用来更新维度表，标签等等。大部分数据会基于不同的主题生成宽表，由宽表生成，轻度聚合表，公共表以及业务线专用表等等。

其中包含血缘系统，数据自动校验（QC）平台，标签系统等等

hive是基于hive的hook功能，spark生成的表，通过算子整出来的是看不出的。QC主要是通过监测表的元数据发生变化，比如新增分区，插入数据等等会触发QC的check机制。

上面的基本上全是偏业务方面的。。。

用户画像开发

主要是基于用户信息的相关标签统计，主要包含以下几个方向，通过统计，统计+模型，预测，模型，评分这几方面。

统计用户近多少天做了什么样的事情

统计+模型 xx权重

评分根据设定的强规则打分

模型。。。。

预测。。。。

数据仓库重构

这部分主要是偏向设计，公司当时表依赖复杂，业务推进难度特别大，所以推了这个。

etl -> 不同主题宽表 ->不同主题的轻度汇总表 ->公共表

->业务表

独立出来很多维度表，模型表，评分表等等

其他杂七杂八的话

hive的UDF，UDTF，UDAF等等吧

地理位置方面的geohash方面的应用等等

HIVE 调优，spark 调优

收获还是有很多的，但是感觉太偏业务了，很多技术原理不是很熟悉

hbase flink druid spark streaming, spark graph

叶子不要闹