摘要: Hadoop的优缺点 Hadoop的优点 1、高可用性:Hadoop底层维护多个数据副本,如果Hadoop某个计算元素或存储出现故障,也不会导致数据丢失 2、高扩展性:在集群间分配任务数据,可方便扩展数以千记的节点 3、高效性:在MapReduce的思想下,Hadoop是并行工作,以加快任务处理的速 阅读全文
posted @ 2021-09-15 16:32 tonggang_bigdata 阅读(255) 评论(0) 推荐(1) 编辑
摘要: 1、概述 kafka是一个分布式、分区的、多副本的、多订阅者的消息发布订阅系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等 kafka对消息保存是根据Topic进行归类,kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是prod 阅读全文
posted @ 2021-09-15 15:28 tonggang_bigdata 阅读(156) 评论(0) 推荐(1) 编辑
摘要: 1、上传解压,配置环境变量 配置bin目录2、修改配置文件 conf mv spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077 export SPARK_ 阅读全文
posted @ 2021-08-31 17:13 tonggang_bigdata 阅读(68) 评论(0) 推荐(1) 编辑
摘要: HBase过滤器 作用 过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端 过滤器的类型很多,但是可以分为两大类: 比较过滤器:可应用于rowkey、列簇、列、列值过滤器 专用过滤器:只能适用于特定的过滤器 比较过滤器 比较运算符 LESS < LESS_OR_EQUAL 阅读全文
posted @ 2021-08-31 17:12 tonggang_bigdata 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 1、启动hadoop start-all.sh 验证http://master:50070 2、启动zookeeper需要在在三台中分别启动zkServer.sh startzkServer.sh status 搭建hbase 1、上传解压配置环境变量 tar -xvf hbase-1.4.6-bi 阅读全文
posted @ 2021-08-31 17:11 tonggang_bigdata 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 第五天笔记 Hive With as 用法 // 之前的写法 select t.id ,t.name ,t.clazz ,t.score_id ,t.score ,c.subject_name from( select a.id ,a.name ,a.clazz ,b.score_id ,b.sco 阅读全文
posted @ 2021-08-31 17:09 tonggang_bigdata 阅读(41) 评论(0) 推荐(0) 编辑
摘要: Hive 常用函数 关系运算 // 等值比较 = == <=> // 不等值比较 != <> // 区间比较: select * from default.students where id between 1500100001 and 1500100010; // 空值/非空值判断:is null 阅读全文
posted @ 2021-08-31 17:08 tonggang_bigdata 阅读(101) 评论(0) 推荐(0) 编辑
摘要: SQL练习: 1、count(*)、count(1) 、count('字段名') 区别 2、HQL 执行优先级: from、where、 group by 、having、order by、join、select 、limit 3、where 条件里不支持子查询,实际上是支持 in、not in、e 阅读全文
posted @ 2021-08-31 17:07 tonggang_bigdata 阅读(143) 评论(0) 推荐(0) 编辑
摘要: Hive建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名,字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT table_com 阅读全文
posted @ 2021-08-31 17:06 tonggang_bigdata 阅读(103) 评论(0) 推荐(0) 编辑
摘要: SQL的生命周期 应用服务器与数据库服务器建立一个连接 数据库进程拿到请求sql 解析并生成执行计划,执行 读取数据到内存并进行逻辑处理 通过步骤一的连接,发送结果到客户端 关掉连接,释放资源 SQL 约束 NOT NULL: 用于控制字段的内容一定不能为空(NULL)。 UNIQUE: 控件字段内 阅读全文
posted @ 2021-08-31 16:58 tonggang_bigdata 阅读(40) 评论(0) 推荐(0) 编辑