2024 年 11月随笔档案 - w我自横刀向天笑

kafka的搭建与使用

摘要：官网下载地址 https://kafka.apache.org/downloads 1、上传解压 tar -zxvf kafka_2.11-1.0.0.tgz -C ../ mv kafka_2.11-1.0.0 kafka-1.0.0 2、修改环境变量配置环境变量 vim /etc/profil 阅读全文

posted @ 2024-11-29 21:15 w我自横刀向天笑阅读(9) 评论(0) 推荐(0) 编辑

chunjun的安装与使用

摘要：官网地址 https://github.com/DTStack/chunjun 下载解压即可使用 hbase2hive案例配置文件 { "job": { "content": [ { "reader": { "table" : { "tableName": "students" }, "name" 阅读全文

posted @ 2024-11-28 20:46 w我自横刀向天笑阅读(13) 评论(0) 推荐(0) 编辑

datax MySql --> Hive实现

摘要：配置文件 { "job": { "setting": { "speed": { "channel":3 }, "errorLimit": { "record": 0, "percentage": 0.02 } }, "content": [ { "reader": { "name": "mysqlr 阅读全文

posted @ 2024-11-27 21:10 w我自横刀向天笑阅读(17) 评论(0) 推荐(0) 编辑

sqoop安装与使用

摘要：1、上传解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local/soft/ 2、修改配置文件切换到sqoop配置文件目录 cd /usr/local/soft/sqoop-1.4.7/conf 复制配置文件并重命名 cp sq 阅读全文

posted @ 2024-11-27 11:08 w我自横刀向天笑阅读(18) 评论(0) 推荐(0) 编辑

datax的安装与使用

摘要：1、datax简介概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高阅读全文

posted @ 2024-11-26 21:22 w我自横刀向天笑阅读(53) 评论(0) 推荐(0) 编辑

HbaseRowKey的设计和热点问题

摘要：1、RowKey的唯一原则必须在设计上保证其唯一性，rowkey是按照字典顺序排序存储的，因此，设计rowkey的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。 2、rowkey长度原则 rowkey是一个二进制码流，可以是任意字符串，最大长度 64 阅读全文

posted @ 2024-11-22 21:22 w我自横刀向天笑阅读(25) 评论(0) 推荐(0) 编辑

Phoenix的安装搭建

摘要：1、关闭hbase集群，在master中执行 stop-hbase.sh 2、上传解压配改名 tar -zxvf phoenix-hbase-2.2-5.1.3-bin.tar.gz -C /usr/local/soft/ mv phoenix-hbase-2.2-5.1.3-bin phoenix 阅读全文

posted @ 2024-11-21 20:18 w我自横刀向天笑阅读(23) 评论(0) 推荐(0) 编辑

Hbase中的过滤器_比较过滤器

摘要：概念 HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。 HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤器（Filter）来查询。阅读全文

posted @ 2024-11-20 16:49 w我自横刀向天笑阅读(20) 评论(0) 推荐(0) 编辑

Java操作Hbase数据库

摘要：```plaintext /* Hbase api中基础我们要做的任务： 1、如何创建一张表 2、如何删除一张表 3、如何向hbase表中插入一列数据 4、如何向hbase表中插入一批数据 5、如何获取一列数据 6、如何获取批量列数据 7、如何创建预分region表 */ import org.ap 阅读全文

posted @ 2024-11-20 16:04 w我自横刀向天笑阅读(31) 评论(0) 推荐(0) 编辑

hive优化

摘要：一、hive的随机抓取策略可以通过 set hive.fetch.task.conversion查看抓取模式默认是more有以下三种模式 none 所有涉及hdfs的读取查询都走mapreduce任务 mininal 在进行简单的select *，简单的过滤或涉及分区字段的过滤时走mr more 阅读全文

posted @ 2024-11-15 21:15 w我自横刀向天笑阅读(12) 评论(0) 推荐(0) 编辑

hbase-2.2.7-分布式搭建

摘要：1、下载安装包并上传到Linux，然后解压 2、配置环境变量 vim /etc/profile 增加下面配置 export HBASE_HOME=/usr/local/soft/hbase-2.2.7 export PATH=$PATH:$HBASE_HOME/bin 3、加载环境变量 source 阅读全文

posted @ 2024-11-15 20:32 w我自横刀向天笑阅读(6) 评论(0) 推荐(0) 编辑

hive的三种交互方式

摘要：一、shell交互Hive，用命令hive启动一个hive的shell命令行，在命令行中输入sql或者命令来和Hive交互首先在主节点上启动Hadoop集群，再启动hive元数据服务启动hadoop start-all.sh 启动hive元数据服务 nohup hive --service me 阅读全文

posted @ 2024-11-10 19:55 w我自横刀向天笑阅读(35) 评论(0) 推荐(0) 编辑

hive-3.1.2搭建

摘要：1、下载安装包下载hive https://archive.apache.org/dist/hive/ 下载MySQL驱动包 https://mirrors.huaweicloud.com/mysql/Downloads/Connector-J/ 2、上传到Linux并解压 tar -zxvf a 阅读全文

posted @ 2024-11-08 21:52 w我自横刀向天笑阅读(53) 评论(0) 推荐(0) 编辑

mapreduce案例_用户停留时间关联城市名

摘要：import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.T 阅读全文

posted @ 2024-11-07 21:49 w我自横刀向天笑阅读(6) 评论(0) 推荐(0) 编辑

mapreduce案例_电信用户平均停留时间

摘要：package com.wll.dianxin; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; impo 阅读全文

posted @ 2024-11-07 21:47 w我自横刀向天笑阅读(5) 评论(0) 推荐(0) 编辑

mapreduce流程

摘要：逻辑切片 1、逻辑切片对block块进行切分，切分的结果将影响map任务的数量 2、split切片的大小默认是128M，与block块大小一样，一个block块会有一个切片 3、如果读取到最后一个block块时会与前一个block进行合并，合并后的大小如果大于1281.1将会各自生成一个切片，合并后阅读全文

posted @ 2024-11-05 22:05 w我自横刀向天笑阅读(20) 评论(0) 推荐(0) 编辑

mapreducr案例_好友关系

摘要：import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.T 阅读全文

posted @ 2024-11-05 21:49 w我自横刀向天笑阅读(2) 评论(0) 推荐(0) 编辑

mapreduce案例_词频统计

摘要：统计文件中英文单词出现的次数 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apa 阅读全文

posted @ 2024-11-05 21:47 w我自横刀向天笑阅读(16) 评论(0) 推荐(0) 编辑

Hadoop高可用搭建

摘要：最终每个节点上的进程 ZK NN DN JN ZKFC master １１１１ｎｏｄｅ1 １１１１１ｎｏｄｅ２１１１１、防火墙 service firewalld stop ２、时间同步 yum install ntp ntpdate -u s2c.time.edu.cn 阅读全文

posted @ 2024-11-04 19:57 w我自横刀向天笑阅读(6) 评论(0) 推荐(0) 编辑

zookeeper的安装与搭建

摘要：1、下载zookeeper，并上传到Linux并解压 tar -xvf zookeeper-3.5.7.tar.gz -C ../ 2、修改文件名配置环境变量 mv apache-zookeeper-3.5.7-bin zookeeper-3.5.7 vim /etc/profile source 阅读全文

posted @ 2024-11-02 17:36 w我自横刀向天笑阅读(7) 评论(0) 推荐(0) 编辑

hadoop-3.1.2分布式搭建

摘要：一、准备工作三台虚拟机： master、node1、node2 时间同步关闭防火墙： systemctl stop firewalld 查看防火墙状态： systemctl status firewalld 取消防火墙自启： systemctl disable firewalld 修改主机名三阅读全文

posted @ 2024-11-01 22:31 w我自横刀向天笑阅读(7) 评论(0) 推荐(0) 编辑

11 2024 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜