摘要:
导读: 第一节:原理与过程 1:底层 2:过程 第二节:集群策略与搭建 1:分发策略 2:搭建 第三节:对比 1:对比solr 2:对比数据库 第四节:操作 1:rest,curl 2:java操作 第一节:原理与过程 1、底层(基于luceue框架) Luceue: 倒排索引 对数据进行分词处理, 阅读全文
摘要:
导读: 第一节:基础架构 1:编程模型 2:架构 3:数据传输 4:高可靠性 5:高维护性 6:数据处理方式 7:对比MR,SPARK 第二节:计算模型 1:spout 2:bolt 3:stream grouping 4:构建拓扑与提交 第三节:架构 第四节:部署 第五节:数据处理 1:同步计算 阅读全文
摘要:
前言 : 下面可能用的很多计算的词语,理解是计算不是单单1+1是计算,对于计算机而言,任何的程序执行就是一个计算过程。 1:计算过程区别(关键字:并行计算) 传统的计算方式: 一个文件数据->开始计算(整个文件有多少数据就计算多少,从头到尾)->计算结束 并行计算: 一个文件数据->拆分存储在一个集 阅读全文
摘要:
导读目录 第一节:sparksql 1:简介 2:核心 3:与hive整合 4:dataFrame 5:函数 第二节:spark Streaming 1:对比strom 2:DStream的算子 3:代码 4:driver HA 5:读取数据 第三节:spark调优 第一节:sparksql (1) 阅读全文
摘要:
导读目录 第一节:代码层面 1:RDD创建 2:算子 3:数据持久化算子 4:广播变量 5:累加器 6:开发流程 第二节:Shuffle优化层面 1:Shuffle 2:调优 第一节:代码层面 (1)RDD创建: Java: sc.textfile sc.parallelize() sc.paral 阅读全文
摘要:
导读:版本1.6,2.0 之前的数据批量处理,流式处理基本低spark的天下,现在有flink,blink(据说是阿里的flink内部版本)也开始开源了。 正在学习中,我更加偏向flink(spark是以批处理为数据的处理方式,sparkStreaming属于微批处理;flink是以纯流式的数据处理 阅读全文
摘要:
本章分享的目录: 1:执行 第一节:运行方式 2:优化 第二节:hive优化 第一节:hive运行方式 (1):命令行:cli:不是特别常用 与hdfs交互(执行执行dfs命令): 例:dfs –ls / 与Linux交互(!开头): 例: !pwd (2):脚本运行:应用做多的 hive -e " 阅读全文
摘要:
本章分享的目录: 1:表操作之插入、查询 第一节:hive DML (1) 插入数据 (2) 查询数据 1、内置运算符 2、内置函数 3、自定义函数 4、Lateral view 第一节:hive DML 一:插入数据 (1):从表查数据插入到hive表(A表中id,name插入B表) from A 阅读全文
摘要:
本章分享的目录: 1:表操作之表创建 第一节:hive DDL (1) 建表方式 (2) 普通建表 (3) 动态分区表 (4) 视图 (5) 索引 第一节:hive DDL(数据库/表的创建) 一:建表方式 (1) 第一种 creat: CREATE TABLE person( id INT, na 阅读全文
摘要:
本章分享的目录: 1:基础 第一节:简介与原理 2:设置用户及权限赋予 第二节:角色权限 3:安装 ,配置,连接 第三节:部署hive 4:参数动态设置 第四节:hive参数设置 第一节:简介与原理 简介: 数据仓库,对海量数据的离线处理(以HiveQL的形式,生成MR任务); 核心组件: 解释器, 阅读全文
摘要:
前言:随着数据量的不断增大,传统数据库的存储查询出现瓶颈,比如mysql采用分库分表的形式。 一:简介 1. 概念:分布式的列式数据库。 2. 基本概念: 2.1 RowKey:一行数据的唯一标识(主键)。 2.2 Column Family(列族):在定义表时候就定义完成,代表一个文件夹下的数据( 阅读全文