摘要:
本文由 网易云 发布。 直播行业在近几年得到了迅速的发展,而主播这个职业也成为了类似明星的新型职业。与录播相比,可以和粉丝、弹幕互动是直播最大的优点之一,然而不良内容弹幕也给主播带来了很多烦恼。再带给主播烦恼的同时,攻击性弹幕更是对主流价值观的一种破坏以及对直播平台拥有核心竞争力的一种极大威胁。 1 阅读全文
摘要:
本文由 网易云 发布。 上一篇文章介绍了如何搭建Hadoop伪分布式集群,本篇将向大家介绍下Hadoop分布式集群的搭建。内容浅显,但能够为新手们提供 一个参考,让像我一样的小白们对Hadoop的环境能够有一定的了解。 本文由 网易云 发布。 上一篇文章介绍了如何搭建Hadoop伪分布式集群,本篇将 阅读全文
摘要:
本文由 网易云 发布。 本文具体讨论了Join基础算法的一种优化方案 – Runtime Filter,在本文最后还引申地聊了聊谓词 下推技术。同时,在本文文章开头,笔者引出了两个问题,SQL执行引擎如何知晓参与Join的两波数据集大小?衡量两波数据集 大小的是物理大小还是纪录多少抑或两者都有?这关 阅读全文
摘要:
本文由 网易云 发布。 在之前的文章中简要介绍了Join在大数据领域中的使用背景以及常用的几种算法-broadcast hash join 、shuffle hash join以及 sort merge join等,对每一种算法的核心应用场景也做了相关介绍,这里再重点说明一番:大表与小表进行join 阅读全文
摘要:
本文由 网易云 发布。 一、商业智能行业分析 根据Gartner、Tableau等发布的行业权威报告,2017年BI行业的发展是:业务人员自助分析、可视化探索、产品的灵活+易用性 1、商业智能和分析平台市场的主流已经从IT主导分析报表转向商业主导分析 2、基于可视的探索模式已成为主流 3、市场对灵活 阅读全文
摘要:
本文由 网易云 发布。 这篇博文主要的内容不是分析说明kudu的性能指标情况,而是分析为什么kudu的scan性能会这么龊!当初对外宣传可是加了各种 逆天黑科技的呀:列独立存储、bloom filter、压缩、原地修改、b+tree、mvcc ... ... 这里先贴个kudu和parquet小部分 阅读全文
摘要:
本文由 网易云 发布。 本期高手问答(4月23日—4月28日),我们请来了桑文锋老师和大家一起探讨数据驱动方面的问题。桑老师基于他在百度的大数据工作,撰写了《数据驱动:从方法到实践》一书,它是从理论到实践的全面且细致的企业数据驱动指南。 详解了大数据本质、理念与现状,围绕数据驱动四环节——采集、建模 阅读全文
摘要:
本文由 网易云 发布。 作者:王文开 跨视图数据粒度计算是网易有数推出的新功能,其优点是您可以独立于当前视图用的维度来执行此计算。跨视图数据粒度计算表达式一共有三种,分别是:FIXED,INCLUDE,和EXCLUDE。为了理解在何时/何地/为什么需要使用它,我们首先必须理解: 1、什么是数据粒度? 阅读全文
摘要:
本文由 网易云 发布。 上一篇,讲了什么是数据的粒度,以及网易有数中,哪些地方能够改变视图上的数据粒度。 现在正式开始跨视图粒度计算表达式的讲解,我们首先来看一下INCLUDE表达式 我们用以下的示例数据来举个例子。这份数据显示了在2014年的1月和2月间,有A、B和C三个客户有一些花费记录。 首先 阅读全文
摘要:
本文由 网易云 发布。 深入嵌入“跨视图粒度计算”的前面两篇分别讲了 1、理解数据的粒度 2、INCLUDE表达式 这一篇讲一下EXCLUDE表达式的用法。 EXCLUDE,中文译为“排除”,顾名思义,这个表达式和INCLUDE表达式是对立的,语法规则如下: 比如我们先做了下图,看了每个“类别”下, 阅读全文