2020 年 11月随笔档案 - shan_zhayidian

hive 安装启动时常见问题

摘要：1.1. 常见问题 l 现象:hive中的mr只能执行一次,如果执行第二次就会报这个错误; l 解决方案 n Yarn-site.xml;不要配置ha(高可用) <?xml version="1.0"?> <configuration>  <property> <nam 阅读全文

posted @ 2020-11-27 10:47 shan_zhayidian 阅读(129) 评论(0) 推荐(0) 编辑

hive的启动命令

摘要：首先启动 zookeeper : bin/zkServer.sh restart 启动zookeeper以后查看是否启动成功 : bin/zkServer.sh status 在启 NameNode 和 DataNode 守护进程。sbin/start-all.sh hive服务器启动命令:启动 : 阅读全文

posted @ 2020-11-27 10:43 shan_zhayidian 阅读(3492) 评论(0) 推荐(0) 编辑

flink高可用（standlone）的配置和问题解决

摘要：首先还是修改flink安装目录的conf目录下flink-conf.yaml文件，找到如下的三个配置，把原本的注释放开，然后配置自己的hdfs地址和zookeeper地址。需要注意的是，我这里的hdfs是之前的ha集群，mycluster是我的hdfs的集群名，至于后边的内容会在hdfs中创建路径阅读全文

posted @ 2020-11-26 17:38 shan_zhayidian 阅读(2109) 评论(0) 推荐(0) 编辑

spark几个重要端口（默认）

摘要：50070：HDFSwebUI的端口号 8485:journalnode默认的端口号 9000：非高可用访问数rpc端口 8020：高可用访问数据rpc 8088：yarn的webUI的端口号 8080：master的webUI，Tomcat的端口号 7077：spark基于standalone的提阅读全文

posted @ 2020-11-26 17:30 shan_zhayidian 阅读(4137) 评论(0) 推荐(0) 编辑

MongoDB常用操作

摘要：使用API时，先引入maven依赖 <dependency> <groupId>org.mongodb</groupId> <artifactId>mongo-java-driver</artifactId> <version>3.11.1</version> </dependency> 创建连接阅读全文

posted @ 2020-11-25 15:58 shan_zhayidian 阅读(270) 评论(0) 推荐(0) 编辑

flume的拦截器

摘要：设置在source和channel之间的插件式组件，source接收的事件，在写入channel之前，连接器都可以进行转换或者删除，每个拦截器只能同时处理一个source接收的事件。 timestemp interceptor--时间戳拦截器 host interceptor--主机拦截器 stat 阅读全文

posted @ 2020-11-21 14:29 shan_zhayidian 阅读(112) 评论(0) 推荐(0) 编辑

flume常见的source、channel、sink

摘要：一、source 1、avro source 侦听Avro端口并从外部Avro客户端流接收事件。当与另一个（上一跳）Flume代理上的内置Avro Sink配对时，它可以创建分层集合拓扑。 channels – type – The component type name, needs to be 阅读全文

posted @ 2020-11-21 14:18 shan_zhayidian 阅读(688) 评论(0) 推荐(0) 编辑

MongoDB安装和启动

摘要：创建数据库目录 MongoDB的数据存储在data目录的db目录下，但是这个目录在安装过程不会自动创建，所以你需要手动创建data目录，并在data目录中创建db目录。以下实例中我们将data目录创建于根目录下(/)。注意：/data/db 是 MongoDB 默认的启动的数据库路径(--dbp 阅读全文

posted @ 2020-11-20 19:58 shan_zhayidian 阅读(70) 评论(0) 推荐(0) 编辑

实时计算框架选型

摘要：国内在技术选型中考虑最多的三种。从延迟看：Storm和Flink原生支持流计算，对每条记录处理，毫秒级延迟，是真正的实时计算，对延迟要求较高的应用建议选择这两种。Spark Streaming的延迟是秒级。从容错看：Spark Streaming和Flink都支持最高的exactly-once 阅读全文

posted @ 2020-11-18 15:34 shan_zhayidian 阅读(892) 评论(0) 推荐(1) 编辑

kafka的ack机制

摘要：ack机制，即producer发送消息的确认机制，会影响到kafka的消息吞吐量和安全可靠性，二者不可兼得，只能平均； ack的取值有三个1、0、-1 ack=0，producer只发送一次消息，无论consumer是否收到； ack=-1，producer发送的消息，只有收到分区内所有副本都成功写阅读全文

posted @ 2020-11-18 15:22 shan_zhayidian 阅读(2965) 评论(0) 推荐(0) 编辑

kafka常用命令

摘要：kafka常用命令 1、启动kafka服务 nohup bin/kafka-server-start.sh config/server.properties & 2、停止kafka服务 ./kafka-server-stop.sh 3、查看所有的话题 bin/kafka-topics.sh --li 阅读全文

posted @ 2020-11-18 11:39 shan_zhayidian 阅读(123) 评论(0) 推荐(0) 编辑

大数据常用端口

摘要：50070：HDFSwebUI的端口号 8485:journalnode默认的端口号 9000：非高可用访问数rpc端口 8020：高可用访问数据rpc 8088：yarn的webUI的端口号 8080：master的webUI，Tomcat的端口号 7077：spark基于standalone的提阅读全文

posted @ 2020-11-04 19:53 shan_zhayidian 阅读(240) 评论(0) 推荐(0) 编辑

shan_zhayidian

11 2020 档案

公告