数栈人:从青铜到星耀,10年大数据人的奋战晋级之路
今天,大家就请跟着数栈君一起,和申杭聊聊他从青铜到星耀的大数据之路。
数栈君:申杭,你是07年从华中科技大学软件工程专业毕业的,能说说你当时为什么选择这个专业吗?
申杭:当时会计、师范、机械制造、土木类专业比较热门,一般家人都会让报这些专业,出来好就业。而电子、计算机、软件工程类的专业刚刚兴起,前景并不是很明朗,不过我那时对计算机还是挺好奇的,觉得电脑上开几个黑窗口,随便敲一堆英文字母,就可以做很多事情,很神奇,当看到软件这个名字,感觉很高端、神秘,所以就报了软件工程专业。说起来,我是华科软件专业第二届的学生,算是较早入计算机坑的人。
骚粉的杭哥
数栈君:那现在很多软件工程师估计都得叫你一声前辈了。你有10多年大数据经验,可以说很资深了,几乎见证了中国大数据行业的诞生和发展。能给大家讲一下你的工作经历吗?
申杭:这些经历要说起来,能讲三天三夜,不过今天就长话短说吧。
倔强青铜:初入数据工程师的世界
2007年毕业时,商业智能(BI)在中国发展势头正猛,我的第一份工作就是在四大管理咨询公司,行业所称“四大”之一的上海埃森哲做BI顾问。期间,负责给平安保险、某外资银行做数据仓库的模型设计和开发,BI报表的开发等工作。
当时有能力和意愿建设数据仓库的企业还不多,率先进行数据仓库建设的主要是保险、银行、证券、电信等一些大型企业。主要是由于这些企业本身的IT系统建设已经比较成熟和完善,并且已经积累了大量的业务数据,对数据的分析,挖掘诉求也比较强烈。
当时,“大数据” 、“数据中台” 、“数据平台”等概念还没诞生,那时业内主流叫法是“数据仓库(DW)”,但数据仓库相关的技术很多都还没有成熟、体系化,在服务这些保险、银行、电信企业时,也碰过很多问题,尤其是刚毕业,技术水平和对业务的理解基本是从零开始,一路跌跌撞撞,摸爬滚打,才逐步入门。
在埃森哲工作的一年半里,我积累了很多数据咨询、数据模型设计、数仓开发等方面的经验,为后续一直从事大数据行业,打下比较好的基础。
秩序白银:从0到1搭建完整、成熟的数据平台
当时国内一些比较成熟的零售、制造企业,随着ERP、CRM、WMS等IT系统的逐步上线和大规模使用,已经积累了大量的数据,但系统间的数据打通、交叉分析,面临比较大的困难,所以这些企业开始尝试进行企业级数据仓库的建设,解决数据孤岛问题,充分挖掘已有的数据价值,辅助业务决策。
基于这个需求和发展趋势,2008年底,我选择加入了国内服装行业领头企业美特斯邦威。
从2008年底-2013年年初,这4年多时间里,我见证了美邦企业级数据仓库从0到1的建设、再到大规模应用的全过程。
2013年3月,离开美邦的时候,我们建设的数据仓库已经全面应用到企划、生产、物流、零售、财务、人力等各个核心部门,每天有几百号人都使用我们建设的系统查看数据,并利用数据来进行业务决策,可以说是一个很成功的平台了。
连升三段直跃钻石:经历了大数据行业的火箭式上升
2013年是移动互联网爆发的年份,国内以BAT为代表的互联网企业都在争夺移动互联网的船票,各类APP井喷,大数据的概念兴起。当时已是PC端电商霸主的阿里正积极布局移动端,在此过程中积累了海量的数据,为了充分挖掘这些数据的价值,需要大量的大数据人才,当时猎头联系到了我,建议我去阿里试试。
于是2013年4月,我加入了阿里,入职无线事业部,跟着江枫(现袋鼠云COO)一起做无线数据分析产品,类似现在的友盟, GrowingIO等。我们当时主要负责为阿里集团绝大部分的APP(例如淘宝、天猫、聚划算等)提供行为数据埋点规范和采集SDK,并把APP上用户的的浏览、点击、分享等数据采集过来做处理、分析,构建集团级无线数据体系,并通过标准化、产品化的方式提供给运营、分析师、PD等使用。
在此期间,我感受比较深的地方是,传统行业的ERP、CRM、WMS等系统存储的数据,一般单表记录数有几千万、过亿已经算量很大了。但是在阿里,仅仅从移动端采集到的数据,每天增量就有2-3千亿条,如果到双11、双12这种电商大促的日子,数据量相比平常还会有几倍的提升,达到5-6千亿的峰值。
同时在数据应用上,以前做大数据的成果以BI分析报表为主,用来辅助决策。而在互联网企业,数据对业务的价值大大拓展和强化了,能直接和业务结合,甚至产生一个新的数据驱动的业务,例如阿里的搜索、广告、千人千面以及蚂蚁的芝麻信用分、花呗、借呗等,都是跟数据紧密相关的业务。
所以对于这种体量和规模的数据,我们面临了各种考验,每天都在绞尽脑汁地思考怎样设计出更合理的数据模型,优化计算任务,在消耗更少资源的同时保证数据的快速产出和分析,及时正确地生成数据报表和分析结果给业务部门使用。
2014年底,我们团队组织架构调整到了阿里云飞天一部,负责对外输出移动数据分析产品,由于当时我们给阿里集团内部APP开发的无线数据分析产品已经非常成熟,所以集团决定将这些技术进行产品化封装,对外提供统一数据采集、分析和数据服务,帮助外部企业更好地采集、计算、分析、应用自身数据,提高企业的移动端流量运营、业务决策效率。
在阿里三年多的这段时光算是比较难忘的一段经历,可以说是痛并快乐着吧。移动数据每天增量都有2-3千亿条,计算量特别庞大,然后还得保证及时、准确地产出数据,每天都像在打仗一样,压力也比较大,死了不少脑细胞。
不过也正是这些经历历炼了我们,做出来的平台不仅能很好服务阿里内部业务部门,也能很好地输出和赋能更多外部企业。
至尊星耀:艰苦、激情与成就的三重奏
2016年7月份离开了阿里云,主要原因是:
第一:当时大数据企业级服务还处在起步阶段,特别是阿里云数加平台的对外发布,我发现大数据企业市场的前景非常广阔,也想利用自己多年来的大数据经验,为更多的企业服务,让企业数据产生业务价值。
第二:当时拖雷、江枫已经出来创立了袋鼠云,受到了他们创业梦想和大数据梦想的感召,也想做出一番事业,所以就加入了袋鼠云,从此走上创业的“不归路”。
数栈君:你以前一直是做技术专家,为什么来袋鼠云之后要转行做产品呢?
申杭:沉浸大数据行业十几年,亲眼见证了大数据行业的各个发展阶段,从最早的关系型数据库(例如Oracle,SqlServer),再到MPP数据库(例如Greenplum,Teradata),再到现在的分布式数据库(例如Hadoop,Spark,Flink),对大数据技术了解比较深和广泛。
同时我也有甲方、乙方,传统企业、互联网企业的不同工作经验,对不同类型企业的大数据使用的情况、诉求、痛点也已经有了比较深刻的理解。
所以决定从开发转型做产品,希望能把自己这些年的经验沉淀,抽象成产品,让更多的企业能更便捷地享受大数据带来的价值。
数栈君:能和我们讲讲你为什么要做数栈这个产品呢?
申杭:进入袋鼠云初期,接手了江西公安、贵州交警等几个大的数据中台项目,接触了不少客户,在服务客户的过程中,发现了企业的一些痛点,其中有很多可以优化和提升的地方:
第一:以前一直做技术,主要是从技术角度去思考数据的逻辑、设计大数据架构,但是企业做大数据的目的是为了提升业务价值。所以我们需要转变思维,多从业务角度思考怎么通过数据赋能业务,怎么通过最小化的投入实现最大化的价值。
第二:不同的企业,数据中台需求多变、复杂,如果给每个客户都提供个性化,定制化数据服务,则实施周期长、效率低、见效慢、管理难。为了解决这些问题,需要一个成熟、稳定、高效的平台来支撑企业数据中台的快速落地。
第三:经过调查,我们发现,市场上华为、星环、Cloudera等企业的大数据平台产品虽然有很强的数据处理能力,专注于Hadoop集群的部署、安装、运维等工作,但是基于集群之上的数据开发、数据管理、数据治理的能力还没有很好地实现体系化、系统化、产品化。对企业来说,建立数据中台体系,门槛还是较高。
所以我们决定研发一个能覆盖数据采集、数据处理、数据挖掘、任务调度、任务运维、数据质量、数据地图、数据模型、数据共享服务等全链路场景,充分满足企业建设数据中台过程中多样复杂需求的平台。
经历将近大半年的日夜奋战,袋鼠云一站式数据开发平台——数栈诞生了。
在接下来的2年半时间里,我们持续进行产品研发、迭代,目前产品体系已经非常成熟,在商业化不到一年的时间,数栈已经服务了几十个客户,帮助这些企业在很短的时间内完成了数据中台的搭建、实施落地。
申杭代表袋鼠云发表演讲
数栈君:数栈上市后,客户对数栈有哪些评价呢?
申杭:客户对我们产品的价值、定位还是很认同的:
第一,产品很轻量,最小仅需5台虚拟机就可以部署,对需要建设数据中台的中小企业来说是一个福音;
第二,兼容性很强,可以无缝对接Cloudera CDH、Hortonworks HDP、华为Fusion Insight等主流的商用大数据平台,能很好的和企业已有的数据平台做结合,避免重复建设。
第三,敏捷灵活,平台用起来比较便捷、一天就能上手。以前在进行大数据开发时,需要找各种各样的工具,进行复杂的配置。现在通过数栈,只需要在界面上进行拖拽式、向导式的操作,就可以完成数据中台的建设。开发门槛大大降低,相比以前,大数据开发、管理、治理效率都至少提升 50%以上。
第四:产品服务好,我们提供基于数栈产品的定制化服务,能和企业已有的系统,流程进行对接,满足不同企业的个性化需求。
未来的王者:王者之巅就在不远处
数栈君:关于数栈的未来,你有什么想法和方向上的规划?
申杭:在产品上,后续我们想研发数据资产运营和数据应用等通用型、行业型产品,逐渐实现从PaaS到SaaS的过渡,从数据平台到数据应用的纵向延伸。
比如针对新零售行业,我们可以在数栈产品里面内置零售行业数据模型,通过简单的修改,就可以适用不同的零售企业。同时也可以提供智能标签、用户画像、精准营销等产品,让数据能直接赋能业务,实现数据的变现,数据价值的最大化。
创业之路任重而道远,公司目前在大数据领域已经站稳脚跟,我相信属于数栈的未来前景无限广阔。
数栈团队合照
数栈君:现在正值毕业季,你对刚入行的开发同学们有什么建议吗?
申杭:一,随着大数据技术平台的发展,功能越来越丰富,未来大数据开发的门槛会越来越低,新入行的同学在打好大数据技术基础的同时,也要加强对行业业务和数据的理解,并把这些理解融入到数据中台模型设计中去,这样设计出来的模型,才能具备比较强的可迭代性、维护性、健壮性。未来也会有助于个人实现从大数据开发角色到数据模型师,数据架构师的转变。
二,现在机器学习、深度学习、物联网、5G等很火,这些也是和大数据紧密相关的领域,新同学们也需要关注这些最新的行业动态,时刻紧跟大数据行业发展的潮流。
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!
github开源项目:https://github.com/DTStack/flinkx
gitee开源项目:https://gitee.com/dtstack_dev_0/flinkx