摘要:
该系列精选文章来自于「数据社」公众号,作者从事过大数据开发,大数据架构,数据分析相关岗位,有着丰富的实战经验。 该系列文章主要包括大数据平台、数据仓库、数据挖掘等。 系列文章都是基于实战总结的干货,下面列出文章链接,建议收藏,方便查看。 【大数据平台】 从0到1搭建大数据平台之数据采集系统 从0到1 阅读全文
摘要:
前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈——现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据的,今天就结合身边的同事经历来一起分享一下。 数据仓库 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line 阅读全文
摘要:
大家好,我是一哥。今天跟大家聊聊程序员35岁以后的方向怎么选? 作为程序员,行业内一直流传着35岁的魔咒,那么大龄程序员该如何跨过35岁这道坎?一哥离35岁也不远了,思考后和大家一起聊一聊~ 从目前一哥接触到的同事,他们的发展大概分为这三条路: 一、钻研技术,成为技术专家 二、带团队,成为管理者,慢 阅读全文
摘要:
一、 背景 现在数据仓库层面的工作越来越多,开发人员也越来越多,如何保障数据准确性是一项非常重要的工作,,数据仓库的很多应用数据直接呈现给用户或者支撑企业分析决策的,容不得数据出现错误。随着开展的业务越来越多,数据模型越来也多,我们管控的越晚就越容易出问题。尽管有数据仓库建设规范,同样在数据模型命名 阅读全文
摘要:
大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈——现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据的,今天就结合身边的同事经历来一起分享一下。 一、数据仓库 数据仓库:数据仓库系统的主要应用主要是O 阅读全文
摘要:
一、什么是内卷化 最近开始了解到一个很有意思的词——“内卷化”,如果你还不知道这个词,那就非常建议往下看。 什么是内卷化?内卷化,亦称过密化,最初由文化人类学家亚历山大·戈登威泽提出,用于描述社会文化模式的变迁规律。当一种文化模式进入到最终的固定状态时,便逐渐局限于自身内部不断进行复杂化的转变,从而 阅读全文
摘要:
数据管控背景 数据管控是在做大数据平台包括传统BI都需要做的工作,数据从各个源过来,我们都要进行数据质量的管理,也就是我们常说的数据治理。那么在数据仓库建设的时候如何进行数据管控呢? 管控手段包括对数据质量、数据生命周期、数据标准、元数据四方面的管控。 管控手段 数据质量 不管是做数据仓库建设还是做 阅读全文
摘要:
一、背景 之前我讲过一个《业务重要?还是技术重要?》,后来收到评论恢复,工作3年以上的同事大多认为业务和技术同等重要。作为一个数据人,我一直想讲业务比数据更重要,但一直怕遭到热衷技术同学的鄙视,这句话一直没敢说。其实,数据人都知道,现在很多大会包括老板,一直都在提“数据赋能价值”。作为员工,我一直对 阅读全文
摘要:
一、操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务,若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。 动态资源调度就是为了解决这种场景,根据当前应用任务的负载 阅读全文
摘要:
数据库的选型 对于很多程序员来说,公司选择什么样的数据库,基本不需要你来决定。当你加入一个公司的时候,公司的大部分技术选型已经确认,特别是数据库选型,因为数据库一旦选择,后期迁移的代价还是很大的。 随着大数据时代的来临,涌现出了很多新型数据库,在公司遇到数据性能瓶颈,喊去IOE口号或者是想尝鲜时 阅读全文