大数据心法来了!一站式玩转MaxCompute,还有开发者资源等你领!
阿里云大数据计算平台开发者版2019年3月推出,MaxCompute正在成为开发者的免费大数据平台。今天,MaxCompute在企业构建自己的数据处理平台实践中起到了至关重要的作用,我们特别精选了企业的真实实践案例:从最大的兴趣社群平台小打卡;到90后、00后喜欢的克拉克拉;从互联网金融的典型天弘基金;到耳熟能详的二手车平台人人车……为你带来了超多的MaxCompute玩法。
小打卡案例 >>>
小打卡是国内最大的兴趣社群平台,每天能够产生上百万条新的内容。在这样超大的内容生产背景下,平台也面临着千人千面、内容分发上的巨大挑战。依托于阿里云MaxCompute,小打卡已经完成了TB级数据仓库方案。在此基础之上,结合机器学习PAI,实现了千人千面的推荐算法。相反,如果完全基于开源的Hadoop框架,从服务部署、可视化开发、代码管理、任务调度、集群运维等多方面,均需要大量的人力来开发与维护。基于阿里云MaxCompute,不论是人力成本,还是计算成本,还是运维成本,都降到了最低。
美柚案例 >>>
美柚2014年底迁移到阿里云大数据计算平台,开始使用数据仓库MaxCompute,几乎零运维,极大降低了大数据的使用门槛。MaxCompute的数据集成工具可以很方便的将不同数据源的数据进行导入导出,基本实现常用数据源的全覆盖,从而实现大数据的全链路打通。所有的代码管理、调度、监控、报警阿里云MaxCompute都帮美柚做好,美柚只需使用它,让美柚更专注于数据开发。
千寻位置 >>>
千寻位置作为高精度定位服务公司,依托阿里云计算平台快速实现了传统数据应用模式到统一大数据体系的转型。基于阿里云 MaxCompute和DataWorks 构建了企业级数据仓库体系,底层数据存储方便、便宜、易拓展,计算效率高、反应快,并支持超大规模数据任务自动化管理。和阿里云的其他平台如 Quick BI良好的兼容打通,很方便的实现了数据应用一体化,减少了大量额外的开发成本和人力成本。平台一直和用户有良好沟通、反馈,不断优化改进,提供更好的用户支持,让我们也有信心更深入的依赖于阿里云平台发掘更多价值。
中邮智递 >>>
中邮智递数据平台发展到现在经历了四个阶段:(1) 直接在业务生产系统开发生成报表,提供业务部门查询;(2) 采用kettle等工具抽取各业务系统数据并处理生成报表;(3) 使用hive构建离线数据仓库,抽取业务数据统一处理并生成报表推送至报表系统;(4) canal+kafka+tidb构建实时数仓进行实时OLAP分析,spark streaming+kafka+redis构建实时数据展示。目前中邮智递也在尝试把现在ECS主机上的系统和服务迁移到阿里云的大数据平台中,例如数加和datav。以及使用ADB实现实时OLAP达到低延迟,高并发。
人人车 >>>
通过阿里云MaxCompute,人人车平台快速高效的完成数仓搭建,并且数据仓库安全可靠,运行平稳,在每日数据峰值阶段的表现优异。目前已开始为公司贡献数据上的效益。 通过阿里云MaxCompute搭建数据仓库为我们节省30%的服务成本及大量的人力成本,大大节省企业的研发时间,使企业研发团队可以更加专注于业务本身的研发。MaxCompute为企业提供完善的数据处理方案、大规模的计算储存、细粒度的节点依赖管理等功能,大大优化了企业数据平台的性能。服务安全可靠,每天稳定在8点前产出企业需要的数据。
高德地图 >>>
高德对数据平台的要求不仅是数据集成、开发、运维中心、数据质量、数据地图、数据安全以及数据服务等全链路All in One,还希望能以可视化的方式进行用户交互,以提高开发效率。以运维中心为例,希望所使用的工具能够将调度节点可视化,方便进行不同时间粒度的任务依赖。同时,还希望拥有可视化的数据地图用于管理元数据信息,方便上下游即时查看。MaxCompute正是符合高德数据业务诉求的给力产品。不仅具有零学习成本和完善的IDE等优势,更具备超高弹性,让高德得以轻松应对国庆假期的超高流量。同时,基于MaxCompute等阿里云产品,让高德内部迄今为止最大的公共项目“魔方”得以实现,为用户提供更优质的出行服务。
多点在线 >>>
MaxCompute是真正的按量付费,对自建Hadoop、使用EMR和使用MaxCompute的成本进行比较的话,差距非常大,整体成量级降低。日常开发 使用SQL,效率高,易调试,文档清晰。MaxCompute不需要运维集群,并提供支撑百万级任务的调度系统,如果自己搭建这样调度系统还是 比较困难的。
阿里妈妈 >>>
阿里妈妈作为集团内MaxCompute用户,在搜索广告、定向广告、达摩盘、报表和BI分析等场景下都有使用MaxCompute。对阿里妈妈来讲,MaxCompute的优势在于数据友好、生态完善持续改进、性能强悍。在具体的场景中,MaxComput可以完成千亿级样本百亿级特征的训练实验;跑一个MapReduce或SQL的Job,可以实现十万级实例的并发调度。超强性能支撑了阿里妈妈单日十万级别的job和千亿级别报表数据。
新华智云 >>>
新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。媒体大脑是新华智云底层的产品品牌,数芯是媒体大脑基础的数据平台。数芯定位为媒体大数据开放平台,平台中包含了媒体行业所依赖的各种各样的数据。数芯基于MaxCompute进行数据处理和算法加工,将挖掘的有价值数据内容和能力开放给上层用户。
墨迹天气 >>>
墨迹天气日志分析业务迁移到MaxCompute后,开发效率提升超过5倍,存储和计算费用节省了70%,每天处理分析2TB的日志数据,更高效的赋能其个性化运营策略。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。
众安保险 >>>
众安保险作为国内首家互联网保险公司,从创立之初计算平台就使用MaxCompute。MaxCompute不仅仅是一个计算平台,它还提供可用的IDE(DataWorks、Studio)开发工具进行数据分析和挖掘,从而降低了众安最初的开发成本。MaxCompute不仅为众安提供任务调度系统、元数据、数据质量监控、数据服务与安全,而且生态的丰富,资源与工具的共享,都能很好的满足众安的使用需求,让众安可以有更多时间去接触用户,为用户创造更大价值。
华大基因 >>>
基因技术从实验室逐渐进入生活场景,数据体量爆发式增长,远超出传统计算能力所能支持的范围。基于这样的背景,华大选择了MaxCompute。在百万人基因组项目中,对人群结构的分析,传统计算方式需3-5天,MaxCompute可使整个分析在1小时内完成,极大加速了数据吞吐和交付速度。在对百万人基因数据进行遗传结构分析时,计算复杂度使得传统计算无法支撑,利用MaxCompute,华大取得了技术突破,在几小时内完成一个人与十万人中所有遗传距离计算,计算成本大幅降低至1千美金以内,这样的例子华大基因还在不断开发中。
小红唇 >>>
小红唇App拥抱大数据计算平台MaxCompute以来,体验非常好,其感受主要是不需要像传统大数据业务一样构建非常复杂的Hadoop栈并对其进行运维,从而节省了资金和时间成本。目前,小红唇的业务数据库完全在MaxCompute平台,只需在数加的IDE里做一些简单的配置即可将数据完整迁移。在MaxCompute上,可以用类SQL的语句编写数据清洗和转换的执行任务,平台同时提供管理器对任务进行调度和管理。MaxCompute整个生态系统设计的比较完善,无需专职数据团队,降低人员成本,极大提升了效率。
优酷 >>>
优酷去做了从Hadoop到MaxCompute的这样一个升级。这个是2016年5月到2019年现在的5月优酷的发展历程,上面是计算资源,下面是储存资源。大家可以看到整个用户数,还有表的数据,实际上是在呈一个指数式增长的。但是在2017年5月,当优酷完成了整个Hadoop迁移MaxCompute后,优酷的计算消耗,还有储存的消耗实际上是呈下降趋势的,整个迁移得到了一个非常大的收益。
本文作者:晋恒
本文为云栖社区原创内容,未经允许不得转载。