随笔分类 - 大数据
大数据学习
摘要:1、MapReduce相比Spark 1)MapReduce 编程模型表达能力弱,只有map和reduce(map-shuffle-reduce)、难以实现复杂的数据操作 处理流程固定,难以实现迭代式计算 数据基于磁盘进行传递,效率较低 2)Spark 抽象出RDD的数据结构,DAG图组合数据处理操
阅读全文
摘要:1、导入依赖 <!-- https://mvnrepository.com/artifact/com.gilt.flume/logback-flume-appender --> <dependency> <groupId>com.gilt.flume</groupId> <artifactId>lo
阅读全文
摘要:1、简介 Presto 是一个开源分布式 SQL 查询引擎,用于针对从千兆字节到 PB 级的各种规模的数据源运行交互式分析查询。Presto 允许查询数据所在的位置,包括 Hive、Cassandra、关系数据库甚至专有数据存储。单个 Presto 查询可以组合来自多个来源的数据,从而允许对整个组织
阅读全文
摘要:界面报错信息提示如下: file /opt/cloudera/parcels/.flood/CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel...does not exist 首先查看CDH agent日志 vim /var/log/cloudera-scm-age
阅读全文
摘要:1、修改配置文件 进入配置文件目录: cd ${HADOOP_HOME}/etc/hadoop 修改core-site.xml: vim core-site.xml 在文件中增加以下内容: <property> <name>hadoop.proxyuser.root.groups</name> <v
阅读全文
摘要:1、什么是Zookeeper? Zookeeper是一个分布式的,开源的分布式应用程序协调服务。 Zookeeper = 文件系统 + 监听通知机制 文件系统:一个小型的文件系统,树形结构,树的节点叫znode;数据以键值对形式存在,key是znode名字,value是znode的值。 监听通知机制
阅读全文
摘要:1、什么是kafka? Kafka是一种分布式的,基于发布/订阅的消息系统(消息队列)。 2、为什么要用kafka? 当业务逻辑变得复杂,数据量也会越来越多。此时可能需要增加多条数据线,每条数据线将收集到的数据导入到不同的存储和分析系统中。若仍使用之前的数据收集模式,则会出现以下问题: **1)生产
阅读全文
摘要:1、数据收集层 1)扩展性:灵活适配不同的数据源。 2)可靠性:数据在传输过程中不能丢失。 3)安全性:敏感数据在收集过程中不会有安全隐患。 4)低延迟:能够以较低延迟传输到后端存储系统中 2、数据存储层 1)扩展性:需要灵活增加新机器扩展存储能力。 2)容错性:在机器出现故障不会导致数据丢失。 3
阅读全文