2022 年 6月 23 日随笔档案 - 呆滞的猪蹄

2022年6月23日

摘要：一、HBase索引案例（使用redis存储索引）在这里是简单模拟将索引存到redis中，再通过先查询索引再将Hbase中的数据查询出来。需要考虑的问题： 1、建立redis的连接，建立Hbase的连接 2、如何创建索引，即创建索引的key和value的设计 3、如何通过将查到的索引，去查阅读全文

posted @ 2022-06-23 23:15 呆滞的猪蹄阅读(80) 评论(0) 推荐(0)

过滤器

摘要： HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。 HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤器（Filter）来查询。过滤阅读全文

posted @ 2022-06-23 22:46 呆滞的猪蹄阅读(79) 评论(0) 推荐(0)

二级索引

摘要：二级索引的本质就是建立各列值与行键之间的映射关系 Hbase的局限性： HBase本身只提供基于行键和全表扫描的查询，而行键索引单一，对于多维度的查询困难。所以我们引进一个二级索引的概念常见的二级索引： HBase的一级索引就是rowkey，我们只能通过rowkey进行检索。如果我们相对hbas 阅读全文

posted @ 2022-06-23 22:43 呆滞的猪蹄阅读(1210) 评论(0) 推荐(0)

HBase的RowKey设计

摘要： HBase的RowKey设计 HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录，在HBase查询的阅读全文

posted @ 2022-06-23 22:42 呆滞的猪蹄阅读(56) 评论(0) 推荐(0)

HBase与Hive的集成

摘要： HBase与Hive的对比 hive: 数据仓库：Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在DataN 阅读全文

posted @ 2022-06-23 22:41 呆滞的猪蹄阅读(117) 评论(0) 推荐(0)

Hbase读写流程

摘要：一、HBase的读写流程 1.1 HBase读流程 Hbase读取数据的流程： 1）是由客户端发起读取数据的请求，首先会与zookeeper建立连接 2）从zookeeper中获取一个hbase:meta表位置信息，被哪一个regionserver所管理着 hbase:meta表：hbase的元数据阅读全文

posted @ 2022-06-23 22:39 呆滞的猪蹄阅读(2567) 评论(0) 推荐(0)

scan，get等命令进阶使用

摘要： scan进阶使用查看所有的命名空间 list_namespace 查看某个命名空间下的所有表 list_namespace_tables 'default' 修改命名空间,设置一个属性 alter_namespace 'bigdata17',{METHOD=>'set','author'=>'wy 阅读全文

posted @ 2022-06-23 22:37 呆滞的猪蹄阅读(66) 评论(0) 推荐(0)

Region

摘要： Region信息观察创建表指定命名空间在创建表的时候可以选择创建到bigdata17这个namespace中，如何实现呢？使用这种格式即可：‘命名空间名称:表名’ 针对default这个命名空间，在使用的时候可以省略不写 create 'bigdata17:t1','info','level' 阅读全文

posted @ 2022-06-23 22:34 呆滞的猪蹄阅读(530) 评论(0) 推荐(0)

Hbase shell

摘要：一、hbase shell 命名描述语法 help ‘命名名’ 查看命令的使用描述 help ‘命令名’ whoami 我是谁 whoami version 返回hbase版本信息 version status 返回hbase集群的状态信息 status table_help 查看如何操作表 t 阅读全文

posted @ 2022-06-23 22:27 呆滞的猪蹄阅读(79) 评论(0) 推荐(0)

Hbase概述与安装

摘要：一、了解HBase 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据 HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系阅读全文

posted @ 2022-06-23 22:17 呆滞的猪蹄阅读(84) 评论(0) 推荐(0)

HQL练习员工案例

摘要：复习员工案例 sql:Hive实现按照指定格式输出每七天的消费平均数输出格式：2018-06-01~2018-06-07 12.29...2018-08-10~2018-08-16 80.67 数据如下：2018/6/1,102018/6/2,112018/6/3,112018/6/4,122018 阅读全文

posted @ 2022-06-23 21:06 呆滞的猪蹄阅读(39) 评论(0) 推荐(0)

HQL练习

摘要：员工信息表emp：字段：员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名：EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp( EMPNO int ,ENAME string ,JOB strin 阅读全文

posted @ 2022-06-23 21:04 呆滞的猪蹄阅读(57) 评论(0) 推荐(0)

Hive优化

摘要： 1.1 hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，select字段名也是阅读全文

posted @ 2022-06-23 21:00 呆滞的猪蹄阅读(187) 评论(0) 推荐(0)

连续登录问题解决

摘要：连续登陆问题在电商、物流和银行可能经常会遇到这样的需求：统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等数据：注意：每个用户每天可能会有多条记录 id datestr amount 1,2019-02-08,6214.23 1,2019-02-08,6247.32 1, 阅读全文

posted @ 2022-06-23 20:44 呆滞的猪蹄阅读(106) 评论(0) 推荐(0)

MapReduce案例

摘要：一、MapReduce案例 1.1 好友推荐系统固定类别推荐莫扎特 >钢琴 >贝多芬 >命运交响曲数据量 QQ好友推荐 > 每个QQ200个好友 5亿QQ号解决思路：需要按照行进行计算将相同推荐设置成相同的key，便于reduce统一处理数据： tom hello hadoop cat 阅读全文

posted @ 2022-06-23 20:35 呆滞的猪蹄阅读(120) 评论(0) 推荐(0)

MapReduce

摘要：一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线：实时数据处理离线：数据处理时效性没有在线那么强，但是相对也需要很快得到结果 mapreduce不会马上得到结果，他会有一定的延时（磁盘IO）如果数据量小，阅读全文

posted @ 2022-06-23 20:24 呆滞的猪蹄阅读(78) 评论(0) 推荐(0)

路漫漫其修远兮

公告