摘要:
Dataset的groupBy agg示例 Dataset Join示例: join condition另外一种方式: BroadcastHashJoin示例: 打印结果: SparkSQL Broadcast HashJoin 打印日志 阅读全文
摘要:
消费者测试: 生产者测试: 阅读全文
摘要:
java -cp java -cp 和 -classpath 一样,是指定类运行所依赖其他类的路径,通常是类库和jar包,需要全路径到jar包,多个jar包之间连接符:window上分号“;”.Linux下使用“:”。windows环境: linux环境: 表达式支持通配符,例如: java -ja 阅读全文
摘要:
一、kafka-manager简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多 阅读全文
摘要:
问题描述: 我之前使用kafka的命令删除了改topic: ./kafka-topics.sh --delete --zookeeper 【zookeeper server】 --topic 【topic name】 kafka是启用了自动创建topic功能的(之气那测试过可以使用),发布消息到该t 阅读全文
摘要:
需求: 目前kafka的topic上有一批数据,这些数据被分配到9个不同的partition中(就是发布时key:{m1,m2,m3,m4...m9},value:{records items}),mx(m1,m2...m9)这些数据的唯一键值:int_id+start_time,其中int_id和 阅读全文
摘要:
一般情况下我们在使用Dataset<Row>进行groupByKey时,你会发现这个方法最后一个参数需要一个encoder,那么这些encoder如何定义呢? 一般数据类型 示例: Class类型: Tuple类型: 一般类型的Tuple Tuple包含类的: 关于Encoder请参考《http:/ 阅读全文
摘要:
事情经过:之前该topic(M_A)已经存在,而且正常使用structured streaming消费了一段时间,后来删除了topic(M_A),重新创建了topic(M-A),程序使用新创建的topic(M-A)进行实时统计操作,使用structured streaming执行过程中抛出了一下异常 阅读全文
摘要:
简介 Structured Streaming is a scalable and fault-tolerant stream processing engine built on the Spark SQL engine. You can express your streaming comput 阅读全文
摘要:
官网文档:《http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example》 Spark Streaming提供的提供的理念是一个批次处理一定时间段内的数据,一批次处理接收到的这一批次的数据;而 阅读全文
摘要:
本来虚拟centos的服务器的磁盘分配的就不大,之前只分配了20G的样子,由于最近有装了不少软件,比如nifi压缩版就有1.2G的大小,一下子没有磁盘资源了。今晚就折腾在这事上了。 1. 查看挂载点信息 显示结果:根目录可用磁盘只有20K。 2. 扩展VMWare硬盘空间 首先需要关闭操作系统,然后 阅读全文
摘要:
一、nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容。 具体请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 2. 安装zookeeper分布式集群 具体请参 阅读全文
摘要:
可以通过以下几种方式设置: 1)bin/spark-submit 可以直接读取conf/spark-defaults.conf文件 每一行为一个key和valuespark.master spark://5.6.7.8:7077spark.executor.memory 4gspark.eventL 阅读全文
摘要:
本篇文章是通过watch(监控)+mutil(事务)实现应用于在分布式高并发处理等相关场景。下边先通过redis-cli.exe来测试多个线程修改时,遇到问题及解决问题。 高并发下修改同一个key遇到的问题: 1)定义一个hash类型的key,key为:lock_test,元素locker的值初始化 阅读全文
摘要:
Redis按照正则批量删除key redis目前还不支持批量删除key的命令,但是我们有时需要删除符合某个规则的keys,有两种方式: 1.使用redis-cli keys "test*"获取到以PRO开始的键,然后使用redis-cli del删除这些键 过于繁琐,不推荐使用 2.使用redis- 阅读全文
摘要:
方案一:使用reduceByKey 数据word.txt 代码: 输出: 方案二:使用spark sql 使用spark sql实现代码: 结果: 方案二:使用spark streaming实时流分析 参考《http://spark.apache.org/docs/latest/streaming- 阅读全文
摘要:
JavaRDD 转化为 Dataset<Row>方案一: 实体类作为schema定义规范,使用反射,实现JavaRDD转化为Dataset<Row> Student.java实体类: 实现代码: JavaRDD 转化为 Dataset<Row>方案二: 使用schema生成方案 阅读全文
摘要:
制作测试数据源: spark scala实现代码: 打印结果: spark java代码实现: 输出结果同上边输出结果。 Java 中使用combineByKey实现TopN: 输出: Spark使用combineByKeyWithClassTag函数实现TopN combineByKeyWithC 阅读全文
摘要:
scala版本2.11 java版本1.8 spark版本2.2.1 es版本6.2.2 hadoop版本2.9.0 elasticsearch节点列表: 内容导航: 1)首先,讲解使用elasticsearch client api讲解如何创建(删除、修改、查询)index,type,mappin 阅读全文
摘要:
注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后重建。 域名 ip master 192.168.0.120 slave1 192.168.0.12 阅读全文