随笔分类 -  大数据

摘要:kafka-connect-hive是基于kafka-connect平台实现的hive数据读取和写入插件,主要由source、sink两部分组成,source部分完成hive表数据的读取任务,kafka-connect将这些数据写入到其他数据存储层中,比如hive到ES数据的流入。sink部分完成向 阅读全文
posted @ 2021-06-18 13:05 非洲羚羊 阅读(469) 评论(0) 推荐(0) 编辑
摘要:流水查询需求 需求第一期: 基于TB级的在线数据,支持缴费帐单明细在线查询。大家都知道,像银行帐单流水一样,查几年的流水是常有的事。 支持的维度查询:帐期、欠费状态、日期范围、费用科目类型、房屋分类、房屋所属项目、关联合同信息、统计列 什么是实时数据 实时可以分为:实时采集、实时计算、高性能,底延时 阅读全文
posted @ 2020-10-18 16:38 非洲羚羊 阅读(1273) 评论(0) 推荐(2) 编辑
摘要:前言 闲暇之时,羚羊给大家分享一下羚羊在Centos7 下安装Cloudera Manager 6.3.0和cloudera cdh 6.3.2的过程和安装过程中遇到的坑。至于为什么要选择CDH,Cloudera Manager和cdh是什么,之间又是什么关系,在这里羚羊就不做介绍了。 为什么选择C 阅读全文
posted @ 2020-07-02 20:34 非洲羚羊 阅读(4858) 评论(2) 推荐(4) 编辑
摘要:往大数据方向发展需要学哪些技术?网上一搜真是指不胜屈。对于小白来说,实在是一头雾水,到底哪些是当下流行的?哪些是必须要先学会的?流行?主次搞不清。为了解决这些疑惑,羚羊专门花了些时间, 挨个技术去研究对比归类,大概总结出以下的技术点: 文件存储: Hadoop HDFS、GFS、KFS、Tachyo 阅读全文
posted @ 2020-06-15 11:13 非洲羚羊 阅读(2026) 评论(0) 推荐(6) 编辑

点击右上角即可分享
微信分享提示