随笔分类 - 大数据
摘要:Dataworks批量刷数优化方案探讨 在数据仓库的日常使用中,经常会有批量补数据,或者逻辑调整后批量重跑数据的场景。 批量刷数的实现方式,因调度工具差异而各有不同。 Dataworks调度批量刷数局限 我们的数据仓库构建在阿里云的dataworks+maxcompute产品上,dataworks的
阅读全文
摘要:Flink入门-第一篇:Flink基础概念以及竞品对比 Flink介绍 截止2021年10月Flink最新的稳定版本已经发展到1.14.0 Flink起源于一个名为Stratosphere的研究项目主要是为了构建下一代大数据分析平台,在2014年成为Apache孵化器项目。2019 年 1 月,阿里
阅读全文
摘要:1. 简介 因子分析是一种研究观测变量变动的共同原因和特殊原因, 从而达到简化变量结构目的的多元统计方法. 因子分析模型是主成分分析的推广, 也是利用降维的思想, 将复杂的原始变量归结为少数几个综合因子的一种多变量统计分析方法. 1.1 应用 寻求变量的基本结构, 简化变量系统. 用于分类, 根据因
阅读全文
摘要:无处不在的数据 在互联网时代的浪潮中,数据驱动业务已成为业界的共识.在数据贫乏的年代,流行的是粗放型经济,大部分的决策用的都是拍脑袋大法.在人工智能早已写进小学课本的今天,使用数据进行精准决策成为主流.用户在网络世界的每个动作,都对应着数据库里的一条甚至多条数据.浏览、点击、搜索、收藏、下单、分享.
阅读全文
摘要:一、首先大数据杀熟是什么? 大数据杀熟本质就是一种数据营销手段: 商家为了追求商业目的,利用交易双方信息的不对称性,根据每个用户的身份信息和历史数据表现,或者根据用户当前的需求来调整产品定价的手段 ; 比如,在某宝里,一个用户的手机机型是苹果最新款,同时历史消费数额又比较高,那么该用户在数据营销里就
阅读全文
摘要:本文主要介绍福布湿在flink实时流处理中,state使用的一些经验和心得。本文默认围观的大神已经对flink有一定了解,如果围观过程中发现了有疑问的地方,欢迎在评论区留言。 1. 状态的类别 1.1 从数据角度看,flink中的状态分为2种: KeyedState 在按key分区的DataStre
阅读全文
摘要:上篇《神器の争》主要是介绍Prophet的特点以及prophet入门的一些注意事项,但离真正的实际运用还有段距离。本篇主要讲解实际运用中Prophet调参的主要步骤以及一些本人实际经验。 一 参数理解篇 class Prophet(object): def __init__( self, growt
阅读全文
摘要:一、需求背景 我们福禄网络致力于为广大用户提供智能化充值服务,包括各类通信充值卡(比如移动、联通、电信的话费及流量充值)、游戏类充值卡(比如王者荣耀、吃鸡类点券、AppleStore充值、Q币、斗鱼币等)、生活服务类(比如肯德基、小鹿茶等),网娱类(比如QQ各类钻等),作为一个服务提供商,商品质量的
阅读全文