大数据 - 随笔分类 - Leil_blogs

Spark书籍笔记

摘要：1、MapReduce相比Spark 1）MapReduce 编程模型表达能力弱，只有map和reduce（map-shuffle-reduce）、难以实现复杂的数据操作处理流程固定，难以实现迭代式计算数据基于磁盘进行传递，效率较低 2）Spark 抽象出RDD的数据结构，DAG图组合数据处理操阅读全文

posted @ 2022-01-10 09:26 Leil_blogs 阅读(83) 评论(0) 推荐(0)

logback整合flume将日志写到hdfs

摘要：1、导入依赖  <dependency> <groupId>com.gilt.flume</groupId> <artifactId>lo 阅读全文

posted @ 2021-10-12 18:01 Leil_blogs 阅读(461) 评论(0) 推荐(0)

Docker安装Presto连接Hive

摘要：1、简介 Presto 是一个开源分布式 SQL 查询引擎，用于针对从千兆字节到 PB 级的各种规模的数据源运行交互式分析查询。Presto 允许查询数据所在的位置，包括 Hive、Cassandra、关系数据库甚至专有数据存储。单个 Presto 查询可以组合来自多个来源的数据，从而允许对整个组织阅读全文

posted @ 2021-09-06 10:46 Leil_blogs 阅读(808) 评论(0) 推荐(0)

安装CDH6.2 agent报错

摘要：界面报错信息提示如下： file /opt/cloudera/parcels/.flood/CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel...does not exist 首先查看CDH agent日志 vim /var/log/cloudera-scm-age 阅读全文

posted @ 2021-07-15 09:57 Leil_blogs 阅读(943) 评论(0) 推荐(0)

windows本地挂载HDFS

摘要：1、修改配置文件进入配置文件目录： cd ${HADOOP_HOME}/etc/hadoop 修改core-site.xml： vim core-site.xml 在文件中增加以下内容： <property> <name>hadoop.proxyuser.root.groups</name> <v 阅读全文

posted @ 2021-06-16 10:36 Leil_blogs 阅读(861) 评论(0) 推荐(0)

Zookeeper学习笔记

摘要：1、什么是Zookeeper？ Zookeeper是一个分布式的，开源的分布式应用程序协调服务。 Zookeeper = 文件系统 + 监听通知机制文件系统：一个小型的文件系统，树形结构，树的节点叫znode；数据以键值对形式存在，key是znode名字，value是znode的值。监听通知机制阅读全文

posted @ 2021-04-04 15:06 Leil_blogs 阅读(107) 评论(0) 推荐(0)

Kafka原理笔记

摘要：1、什么是kafka？ Kafka是一种分布式的，基于发布/订阅的消息系统（消息队列）。 2、为什么要用kafka？当业务逻辑变得复杂，数据量也会越来越多。此时可能需要增加多条数据线，每条数据线将收集到的数据导入到不同的存储和分析系统中。若仍使用之前的数据收集模式，则会出现以下问题： **1）生产阅读全文

posted @ 2021-03-26 10:56 Leil_blogs 阅读(142) 评论(0) 推荐(0)

企业级大数据框架概述

摘要：1、数据收集层 1）扩展性：灵活适配不同的数据源。 2）可靠性：数据在传输过程中不能丢失。 3）安全性：敏感数据在收集过程中不会有安全隐患。 4）低延迟：能够以较低延迟传输到后端存储系统中 2、数据存储层 1）扩展性：需要灵活增加新机器扩展存储能力。 2）容错性：在机器出现故障不会导致数据丢失。 3 阅读全文

posted @ 2021-03-05 10:06 Leil_blogs 阅读(354) 评论(0) 推荐(0)

Leil_blogs

随笔分类 - 大数据

公告