数栈人:从青铜到星耀,10年大数据人的奋战晋级之路


今天,大家就请跟着数栈君一起,和申杭聊聊他从青铜到星耀的大数据之路。

数栈君:申杭,你是07年从华中科技大学软件工程专业毕业的,能说说你当时为什么选择这个专业吗?

申杭:当时会计、师范、机械制造、土木类专业比较热门,一般家人都会让报这些专业,出来好就业。而电子、计算机、软件工程类的专业刚刚兴起,前景并不是很明朗,不过我那时对计算机还是挺好奇的,觉得电脑上开几个黑窗口,随便敲一堆英文字母,就可以做很多事情,很神奇,当看到软件这个名字,感觉很高端、神秘,所以就报了软件工程专业。说起来,我是华科软件专业第二届的学生,算是较早入计算机坑的人。

骚粉的杭哥

数栈君:那现在很多软件工程师估计都得叫你一声前辈了。你有10多年大数据经验,可以说很资深了,几乎见证了中国大数据行业的诞生和发展。能给大家讲一下你的工作经历吗?

申杭:这些经历要说起来,能讲三天三夜,不过今天就长话短说吧。

倔强青铜:初入数据工程师的世界

2007年毕业时,商业智能(BI)在中国发展势头正猛,我的第一份工作就是在四大管理咨询公司,行业所称“四大”之一的上海埃森哲做BI顾问。期间,负责给平安保险、某外资银行做数据仓库的模型设计和开发,BI报表的开发等工作。

当时有能力和意愿建设数据仓库的企业还不多,率先进行数据仓库建设的主要是保险、银行、证券、电信等一些大型企业。主要是由于这些企业本身的IT系统建设已经比较成熟和完善,并且已经积累了大量的业务数据,对数据的分析,挖掘诉求也比较强烈。

当时,“大数据” 、“数据中台” 、“数据平台”等概念还没诞生,那时业内主流叫法是“数据仓库(DW)”,但数据仓库相关的技术很多都还没有成熟、体系化,在服务这些保险、银行、电信企业时,也碰过很多问题,尤其是刚毕业,技术水平和对业务的理解基本是从零开始,一路跌跌撞撞,摸爬滚打,才逐步入门。

在埃森哲工作的一年半里,我积累了很多数据咨询、数据模型设计、数仓开发等方面的经验,为后续一直从事大数据行业,打下比较好的基础。

秩序白银:从0到1搭建完整、成熟的数据平台

当时国内一些比较成熟的零售、制造企业,随着ERP、CRM、WMS等IT系统的逐步上线和大规模使用,已经积累了大量的数据,但系统间的数据打通、交叉分析,面临比较大的困难,所以这些企业开始尝试进行企业级数据仓库的建设,解决数据孤岛问题,充分挖掘已有的数据价值,辅助业务决策。

基于这个需求和发展趋势,2008年底,我选择加入了国内服装行业领头企业美特斯邦威。

2008年底-2013年年初,这4年多时间里,我见证了美邦企业级数据仓库从0到1的建设、再到大规模应用的全过程。

2013年3月,离开美邦的时候,我们建设的数据仓库已经全面应用到企划、生产、物流、零售、财务、人力等各个核心部门,每天有几百号人都使用我们建设的系统查看数据,并利用数据来进行业务决策,可以说是一个很成功的平台了。

连升三段直跃钻石:经历了大数据行业的火箭式上升

2013年是移动互联网爆发的年份,国内以BAT为代表的互联网企业都在争夺移动互联网的船票,各类APP井喷,大数据的概念兴起。当时已是PC端电商霸主的阿里正积极布局移动端,在此过程中积累了海量的数据,为了充分挖掘这些数据的价值,需要大量的大数据人才,当时猎头联系到了我,建议我去阿里试试。

于是2013年4月,我加入了阿里,入职无线事业部,跟着江枫(现袋鼠云COO)一起做无线数据分析产品,类似现在的友盟, GrowingIO等。我们当时主要负责为阿里集团绝大部分的APP(例如淘宝、天猫、聚划算等)提供行为数据埋点规范和采集SDK,并把APP上用户的的浏览、点击、分享等数据采集过来做处理、分析,构建集团级无线数据体系,并通过标准化、产品化的方式提供给运营、分析师、PD等使用。

在此期间,我感受比较深的地方是,传统行业的ERP、CRM、WMS等系统存储的数据,一般单表记录数有几千万、过亿已经算量很大了。但是在阿里,仅仅从移动端采集到的数据,每天增量就有2-3千亿条,如果到双11、双12这种电商大促的日子,数据量相比平常还会有几倍的提升,达到5-6千亿的峰值

同时在数据应用上,以前做大数据的成果以BI分析报表为主,用来辅助决策。而在互联网企业,数据对业务的价值大大拓展和强化了,能直接和业务结合,甚至产生一个新的数据驱动的业务,例如阿里的搜索、广告、千人千面以及蚂蚁的芝麻信用分、花呗、借呗等,都是跟数据紧密相关的业务。

所以对于这种体量和规模的数据,我们面临了各种考验,每天都在绞尽脑汁地思考怎样设计出更合理的数据模型,优化计算任务,在消耗更少资源的同时保证数据的快速产出和分析,及时正确地生成数据报表和分析结果给业务部门使用。

2014年底,我们团队组织架构调整到了阿里云飞天一部,负责对外输出移动数据分析产品,由于当时我们给阿里集团内部APP开发的无线数据分析产品已经非常成熟,所以集团决定将这些技术进行产品化封装,对外提供统一数据采集、分析和数据服务,帮助外部企业更好地采集、计算、分析、应用自身数据,提高企业的移动端流量运营、业务决策效率。

在阿里三年多的这段时光算是比较难忘的一段经历,可以说是痛并快乐着吧。移动数据每天增量都有2-3千亿条,计算量特别庞大,然后还得保证及时、准确地产出数据,每天都像在打仗一样,压力也比较大,死了不少脑细胞。

不过也正是这些经历历炼了我们,做出来的平台不仅能很好服务阿里内部业务部门,也能很好地输出和赋能更多外部企业。

至尊星耀:艰苦、激情与成就的三重奏

2016年7月份离开了阿里云,主要原因是:

第一:当时大数据企业级服务还处在起步阶段,特别是阿里云数加平台的对外发布,我发现大数据企业市场的前景非常广阔,也想利用自己多年来的大数据经验,为更多的企业服务,让企业数据产生业务价值。

第二:当时拖雷、江枫已经出来创立了袋鼠云,受到了他们创业梦想和大数据梦想的感召,也想做出一番事业,所以就加入了袋鼠云,从此走上创业的“不归路”。

数栈君:你以前一直是做技术专家,为什么来袋鼠云之后要转行做产品呢?

申杭:沉浸大数据行业十几年,亲眼见证了大数据行业的各个发展阶段,从最早的关系型数据库(例如Oracle,SqlServer),再到MPP数据库(例如Greenplum,Teradata),再到现在的分布式数据库(例如Hadoop,Spark,Flink),对大数据技术了解比较深和广泛。

同时我也有甲方、乙方,传统企业、互联网企业的不同工作经验,对不同类型企业的大数据使用的情况、诉求、痛点也已经有了比较深刻的理解。

所以决定从开发转型做产品,希望能把自己这些年的经验沉淀,抽象成产品,让更多的企业能更便捷地享受大数据带来的价值。

 

数栈君:能和我们讲讲你为什么要做数栈这个产品呢?

申杭:进入袋鼠云初期,接手了江西公安、贵州交警等几个大的数据中台项目,接触了不少客户,在服务客户的过程中,发现了企业的一些痛点,其中有很多可以优化和提升的地方:

第一:以前一直做技术,主要是从技术角度去思考数据的逻辑、设计大数据架构,但是企业做大数据的目的是为了提升业务价值。所以我们需要转变思维,多从业务角度思考怎么通过数据赋能业务,怎么通过最小化的投入实现最大化的价值。

第二:不同的企业,数据中台需求多变、复杂,如果给每个客户都提供个性化,定制化数据服务,则实施周期长、效率低、见效慢、管理难。为了解决这些问题,需要一个成熟、稳定、高效的平台来支撑企业数据中台的快速落地。

第三:经过调查,我们发现,市场上华为、星环、Cloudera等企业的大数据平台产品虽然有很强的数据处理能力,专注于Hadoop集群的部署、安装、运维等工作,但是基于集群之上的数据开发、数据管理、数据治理的能力还没有很好地实现体系化、系统化、产品化。对企业来说,建立数据中台体系,门槛还是较高。

所以我们决定研发一个能覆盖数据采集、数据处理、数据挖掘、任务调度、任务运维、数据质量、数据地图、数据模型、数据共享服务等全链路场景,充分满足企业建设数据中台过程中多样复杂需求的平台。

经历将近大半年的日夜奋战,袋鼠云一站式数据开发平台——数栈诞生了。

在接下来的2年半时间里,我们持续进行产品研发、迭代,目前产品体系已经非常成熟,在商业化不到一年的时间,数栈已经服务了几十个客户,帮助这些企业在很短的时间内完成了数据中台的搭建、实施落地

申杭代表袋鼠云发表演讲

 

数栈君:数栈上市后,客户对数栈有哪些评价呢?

申杭:客户对我们产品的价值、定位还是很认同的:

第一,产品很轻量,最小仅需5台虚拟机就可以部署,对需要建设数据中台的中小企业来说是一个福音;

第二兼容性很强,可以无缝对接Cloudera CDH、Hortonworks HDP、华为Fusion Insight等主流的商用大数据平台,能很好的和企业已有的数据平台做结合,避免重复建设。

第三敏捷灵活,平台用起来比较便捷、一天就能上手。以前在进行大数据开发时,需要找各种各样的工具,进行复杂的配置。现在通过数栈,只需要在界面上进行拖拽式、向导式的操作,就可以完成数据中台的建设。开发门槛大大降低,相比以前,大数据开发、管理、治理效率都至少提升 50%以上。

第四:产品服务好,我们提供基于数栈产品的定制化服务,能和企业已有的系统,流程进行对接,满足不同企业的个性化需求。

未来的王者:王者之巅就在不远处

数栈君:关于数栈的未来,你有什么想法和方向上的规划?

申杭:在产品上,后续我们想研发数据资产运营和数据应用等通用型、行业型产品,逐渐实现从PaaS到SaaS的过渡,从数据平台到数据应用的纵向延伸。

比如针对新零售行业,我们可以在数栈产品里面内置零售行业数据模型,通过简单的修改,就可以适用不同的零售企业。同时也可以提供智能标签、用户画像、精准营销等产品,让数据能直接赋能业务,实现数据的变现,数据价值的最大化。

创业之路任重而道远,公司目前在大数据领域已经站稳脚跟,我相信属于数栈的未来前景无限广阔。

数栈团队合照

数栈君:现在正值毕业季,你对刚入行的开发同学们有什么建议吗?

申杭:一,随着大数据技术平台的发展,功能越来越丰富,未来大数据开发的门槛会越来越低,新入行的同学在打好大数据技术基础的同时,也要加强对行业业务和数据的理解,并把这些理解融入到数据中台模型设计中去,这样设计出来的模型,才能具备比较强的可迭代性、维护性、健壮性。未来也会有助于个人实现从大数据开发角色到数据模型师,数据架构师的转变。

二,现在机器学习、深度学习、物联网、5G等很火,这些也是和大数据紧密相关的领域,新同学们也需要关注这些最新的行业动态,时刻紧跟大数据行业发展的潮流。

 

数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!

github开源项目:https://github.com/DTStack/flinkx

gitee开源项目:https://gitee.com/dtstack_dev_0/flinkx

posted @ 2021-05-07 18:18  袋鼠云数栈  阅读(109)  评论(0编辑  收藏  举报