关注公众号数据社,获取大数据、数据分析资料

数据社

专注大数据、数据分析、MPP数据库技术分析

摘要: 工作中遇到Kafka跨机房传输到远程机房的场景,之前的方案是使用Flume消费后转发到目标kafka,当topic增多并且数据量变大后,维护性较差且Flume较耗费资源。 一、原理 MirrorMaker 为Kafka 内置的跨集群/机房数据复制工具,二进制包解压后bin目录下有kafka-mirr 阅读全文
posted @ 2020-09-27 12:09 WindyQin 阅读(1164) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯是一种常用的分类算法,适用于维度非常高的数据集,具有速度快,可调参数少有点,非常适合为分类问题提供快速粗糙的基本方案,经常用于垃圾邮件分类等场景中。 朴素贝叶斯算法 朴素贝叶斯算法依据概率论中贝叶斯定理建立模型,前提假设各个特征之间相互独立(这也是正式“朴素”的含义),这个假设非常极端,因 阅读全文
posted @ 2020-09-25 12:44 WindyQin 阅读(561) 评论(0) 推荐(0) 编辑
摘要: “ 上篇内容介绍的是线性回归和逻辑回归模型,输入输出是连续值,分类模型的输出是一个有限集合,本篇介绍决策分类树算法” 决策树算法理解 决策树是直观运用概率分析的树形分类器,是很常用的分类方法,属于监管学习,决策树分类过程是从根节点开始,根据特征属性值选择输出分支,直到到达叶子节点,将叶子节点存放的类 阅读全文
posted @ 2020-09-25 09:32 WindyQin 阅读(413) 评论(0) 推荐(0) 编辑
摘要: “ 数据挖掘算法基于线性代数、概率论、信息论推导,深入进去还是很有意思的,能够理解数学家、统计学家、计算机学家的智慧,这个专栏从比较简单的常用算法入手,后续研究基于TensorFlow的高级算法,最好能够参与到人脸识别和NLP的实际项目中,做出来一定的效果。” 一、理解线性回归模型 首先讲回归模型, 阅读全文
posted @ 2020-09-24 15:10 WindyQin 阅读(905) 评论(0) 推荐(0) 编辑
摘要: Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的,在使用Hive时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑! 坑一:改变字段类型后更新数据不成功 关于hive插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如0 阅读全文
posted @ 2020-09-24 14:45 WindyQin 阅读(1122) 评论(0) 推荐(0) 编辑
摘要: 一、控制器简介 控制器组件(Controller),是 Apache Kafka 的核心组件。它的主要作用是在 Apache ZooKeeper 的帮助下管理和协调整个 Kafka 集群。集群中任意一台 Broker 都能充当控制器的角色,但是,在运行过程中,只能有一个 Broker 成为控制器,行 阅读全文
posted @ 2020-09-21 17:43 WindyQin 阅读(3659) 评论(0) 推荐(4) 编辑
摘要: 背景 大数据集群迁移这件事,不知道有多少同学做过(反正我是第一次)。我说的不是简单的把一个集群的数据拷贝到另一个集群上,我指的是整个数据处理平台与相关的前台业务的迁移工作,是从一个机房到另一个机房。 刚开始接到迁移通知,想着没什么问题,一个月应该可以搞定(毕竟无知者无畏)。可是当着手写迁移方案时,自 阅读全文
posted @ 2020-09-21 09:25 WindyQin 阅读(946) 评论(0) 推荐(1) 编辑
摘要: 一、Lambda架构需求 Lambda架构背后的需求是由于MR架构的延迟问题。MR虽然实现了分布式、可扩展数据处理系统的目的,但是在处理数据时延迟比较严重。实际上如果内存和CPU足够强大,MR也可以实现近实时运算,但实际业务环境并非如此,因此我们需要权衡,选择实时处理和批处理所需要数据量和恰当的资源 阅读全文
posted @ 2020-09-15 13:37 WindyQin 阅读(6410) 评论(0) 推荐(1) 编辑
摘要: 一、什么是自助分析平台 自助分析平台是构建在大数据平台之上的,依托于大数据平台的数据研发能力,通过统一的数据服务,实现对数据查询、分析的统一管理,为企业业务分析提供高效的数据决策支持,同时也避免数据工程师陷入繁杂的提数需求中。自助分析平台是有计算机基础的业务人员能够快速上手的前端产品,既要有大数据的 阅读全文
posted @ 2020-09-09 15:43 WindyQin 阅读(1340) 评论(2) 推荐(0) 编辑
摘要: 初级工程师的困惑 曾经有公众号的小伙伴后台联系我,咨询一些问题。有一个粉丝问过这样一个问题: 群主,向你请教一个困扰我很久的问题,从毕业到现在,我一直从事大数据平台开发d的工作,主要是搭建CDH周边产品,并在基础上开发一些BI产品和内部的分析系统。我很喜欢这份工作,但就是离业务太远了,很少了解用户到 阅读全文
posted @ 2020-09-04 17:16 WindyQin 阅读(1381) 评论(5) 推荐(2) 编辑