2020 年 3月随笔档案 - 七寸青衫

shell工具

摘要：一、cut：从文件的每一行剪切字节，字符，字段并将这些输出基本用法： cut [选项参数] filename 选项参数功能 -f 列号，提取第几列 -d 分隔符，按照指定分隔符分割列 -c 指定具体的字符二、sed：流编辑器，一次处理一行内容，处理时，吧当前处理的行存储在临时缓冲区，称为“模式阅读全文

posted @ 2020-03-30 21:32 七寸青衫阅读(257) 评论(0) 推荐(0) 编辑

Apache框架版本&CDH框架版本

摘要：Apache框架版本： CDH框架版本：阅读全文

posted @ 2020-03-29 20:23 七寸青衫阅读(416) 评论(0) 推荐(0) 编辑

TailDirSource

摘要：特点： 1、TailDirSource以接近实时的所读监控文件中写入的新行 2、TailDirSource检测文件中写入的新行，并且将每个文件tail的位置记录在一个JSON的文件中 3、即使agent挂了，重启后，source从上次记录的位置继续执行tail操作 4、用户可以修改Position 阅读全文

posted @ 2020-03-29 20:18 七寸青衫阅读(546) 评论(0) 推荐(0) 编辑

异常Failed to auto configure default logger context

摘要：这个异常是logback.xml出现错误查看logback.xml发现标签格式错误修改正确即可阅读全文

posted @ 2020-03-25 22:27 七寸青衫阅读(1407) 评论(2) 推荐(1) 编辑

HBase集成Hive的总结

摘要：一、hbase为什么要集成hive： HBase是一个NoSQL数据库！一般用作对海量大表数据的实时读写，不支持复杂的查询！ Hive是一个数据仓库软件！Hive主要用来对数据仓库中的数据进行分析！Hive支持使用HQL对表中的数据进行查询！ Hive > HQL >HDFS上的数据 >MR HBa 阅读全文

posted @ 2020-03-23 22:19 七寸青衫阅读(322) 评论(0) 推荐(0) 编辑

关于HBase中Rowkey的设计原则

摘要：hbase的数据是key-value结构！因此一条数据的唯一标识就是rowkey! region也是根据rowkey进行排序，根据rowkey进行切分！ rowkey设计的好，可以提供系统负载均衡的能力！如何让regionserver负载均衡：让数据可以基于rowkey排序后，均匀地分散到所有的阅读全文

posted @ 2020-03-23 22:03 七寸青衫阅读(290) 评论(0) 推荐(0) 编辑

关于HBase中读多写多得不同应用场景

摘要：一、关于索引方面的作用：不管是本地索引还是全局索引，在功能上没有任何差别，都是为了加快某个列的查询！适合的情景不同！因为当向hbase的表中插入数据时，数据在更新时，也需要更新索引！本地索引：索引以列族的形式存储在表中，在更新数据和更新索引时，只需要向数据所在的regionserver发请阅读全文

posted @ 2020-03-23 22:00 七寸青衫阅读(327) 评论(0) 推荐(0) 编辑

编写HBaseAPI后，进行测试抛出的异常

摘要：第一个异常： no further information：没有更多的信息往下看就可以知道这是没有开启集群连接不上服务器。相应的所有服务都开启后，test通过阅读全文

posted @ 2020-03-22 15:21 七寸青衫阅读(151) 评论(0) 推荐(0) 编辑

HBase--写流程

摘要：需求：向ns1库的t1表中，rowkey为r6，cf1列族中的name列，写入数据 tom put 'ns1:t1','r6','cf1:name','tom' 整个写的流程如下： 1、查询zookeeper中的/hbase/meta-region-sever，找到habase：meta表所在的r 阅读全文

posted @ 2020-03-19 11:53 七寸青衫阅读(120) 评论(0) 推荐(0) 编辑

关于软连接

摘要：https://blog.csdn.net/gao_zhennan/article/details/79127232 阅读全文

posted @ 2020-03-18 21:53 七寸青衫阅读(92) 评论(0) 推荐(0) 编辑

Kafka真实项目应用

摘要：项目介绍：项目模拟交易所，进行证券之类的交易，在撮合交易中：添加委托，更新委托，添加成交，添加或者更新持仓，会频繁进行数据库操作。防止在频繁操作数据库的过程中，数据库处理不完，导致报错，然后抛出异常，数据丢失的问题。也考虑到项目以后会使用 kafka 作为总线，进行数据交互，所以在此阶段，db 操作阅读全文

posted @ 2020-03-16 23:29 七寸青衫阅读(2095) 评论(0) 推荐(0) 编辑

Kafka--自定义分区器与拦截器

摘要：首先了解KafkaProduce发送消息流程一、定义一个简单的生产者（不会写找源码抄--改）代码： public static void main(String[] args) { //producer的配置信息 Properties props = new Properties(); // 服阅读全文

posted @ 2020-03-16 23:06 七寸青衫阅读(439) 评论(0) 推荐(0) 编辑

Kafka--高效的原因

摘要：1、顺序写磁盘：即不需要寻址 2、磁盘也缓存技术：在现代操作系统中，可以把磁盘的一片区域当做临时的缓存使用 3、零拷贝技术：本地文件写入到磁盘页缓存里后直接写入另外一个节点阅读全文

posted @ 2020-03-16 19:50 七寸青衫阅读(371) 评论(0) 推荐(0) 编辑

idea采用JDBC方式连接数据库

摘要：错误的信息很明显地指明main线程无法找到指定的类这个类就是hadoop相关的说明我们没有配置hadoop的相关依赖在pom.xml添加hadoop相关依赖问题就解决了总结：使用此方式连接数据库，要有两个依赖： 1、hive对jdbc的依赖 2、对hadoop的依赖阅读全文

posted @ 2020-03-04 22:34 七寸青衫阅读(235) 评论(0) 推荐(0) 编辑

从自定义比较器（实现RawComparator接口的方式）总结的经验

摘要：在MR中我们在Map阶段的排序可是通过两种方式要比较的值为key 1）实现WriteComparator接口比较简单使用 2）自定义比较器（实现RawComparator接口）这里我们介绍一下第二种方式 1、我们要自定义一个比较器实现RawComparator接口 2、重写方法为什么有两个方阅读全文

posted @ 2020-03-03 11:43 七寸青衫阅读(304) 评论(0) 推荐(0) 编辑

关于Hadoop分组排序

摘要：分组排序是干什么的？在Hadoop的Reduce阶段中的reduce方法中默认每一组数据调用该方法，那么什么是一组数据呢？如果Reduce阶段输入的key相同那么就认为是一组数据简单的说，在开发中，往往将数据封装到bean对象中，又因为bean对象中有多个字段，如果我们这些字段不完全相同那么阅读全文

posted @ 2020-03-01 16:06 七寸青衫阅读(234) 评论(0) 推荐(0) 编辑

Hadoop学习之小文件及其处理方式

摘要：小文件定义：小文件是远小于hdfs块大小的文件，在hdfs上任何一个文件都有对应的元数据信息小文件的坏处： 1、小文件太多，响应的元数据就会多，占用空间太多且namenode维护起来不方便 2、小文件太多，启动的MapTask就会过，增加开销处理小文件的方式：一、Har归档 HDFS存档文件阅读全文

posted @ 2020-03-01 00:48 七寸青衫阅读(635) 评论(0) 推荐(1) 编辑

啤酒泡枸杞

林无静树，川无停流。

03 2020 档案

公告