摘要: 随着数据爆炸式增长,为处理大量数据,MapReduce、Storm、Spark和Flink应运而生,而传统的机器学习方法对GPU的利用很少,浪费了很多的资源和探索的可能,RAPIDS正在被设计为数据处理的下一个发展阶段。由于其Apache Arrow的内存格式,与Spark内存处理相比,RAPIDS 阅读全文
posted @ 2020-04-18 22:52 Christine_7 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 使用python编写Spark Streaming实时处理Kafka数据的程序,需要熟悉Spark工作机制和Kafka原理。 1 配置Spark开发Kafka环境 首先点击下载 ,下载Spark连接Kafka的代码库。然后把下载的代码库放到目录 目录下,命令如下: 然后在 目录下新建kafka目录, 阅读全文
posted @ 2020-03-23 00:01 Christine_7 阅读(1008) 评论(0) 推荐(0) 编辑
摘要: SASL/PLAIN 是一种简单的 username/password 认证机制, 通常与 TLS 加密一起使用, 用于实现安全认证. Kafka 提供了一个默认的 SASL/PLAIN 实现, 可以做扩展后在生产环境使用. 1 配置kafka server端(每个broker) JAAS文件作为每 阅读全文
posted @ 2020-03-22 23:25 Christine_7 阅读(1390) 评论(0) 推荐(0) 编辑
摘要: 1 YCSB工具介绍 YCSB全称“Yahoo!Cloud Serving Benchmark”,是雅虎开发的用来对云服务进行基础测试的工具,内部涵盖了常见的NoSQL数据库产品,如Cassandra、MongoDB、HBase、Redis等。在运行YCSB时,可以配置不同的workload和DB, 阅读全文
posted @ 2020-03-22 21:34 Christine_7 阅读(1964) 评论(0) 推荐(0) 编辑
摘要: 前段时间,由于业务需要对Kafka消息从两方面进行存储,一方面离线分批存储,另一方面在线分布式存储。在存储Kafka消息前,需要了解 "Kafka工作原理" 。 1 离线分批存储 将消费到的Kafka数据打包分批存储到本地 2 在线分布式存储 直接将消费到的Kafka消息写入HBase 服务器调试在 阅读全文
posted @ 2020-03-22 20:33 Christine_7 阅读(592) 评论(0) 推荐(0) 编辑
摘要: 使用Kafka作为消息中间件消费数据时,监控Kafka消费的进度很重要。其中,在监控消费进度的过程中,主要关注消费Lag。 常用监控Kafka消费进度的方法有三种,分别是使用Kafka自带的命令行工具、使用Kafka Consumer API和Kafka自带的JMX监控指标,这里介绍前两种方法。 注 阅读全文
posted @ 2020-01-25 16:09 Christine_7 阅读(2344) 评论(0) 推荐(0) 编辑
摘要: crontab常用命令 1 创建crontab任务 1.1 查看定时任务是否开启 1.2 编辑用户的crontab文件的内容 1.3 显示用户的crontab文件的内容 2 日志服务 2.1 修改rsyslog 2.2 重启rsyslog sudo service rsyslog restart 2 阅读全文
posted @ 2020-01-21 19:47 Christine_7 阅读(1998) 评论(1) 推荐(0) 编辑
摘要: Kafka的配置方式有三种 ,分别是单机、伪分布式集群和分布式集群,部署都很常规,博客资源也很多,这里简单介绍,详细说明Kafka集群如何进行外网访问。其中集群配置过程中,本文使用到的内网IP和外网IP只做演示,非真实IP。 1 伪分布式集群部署 内网IP:10.12.100.126 外网IP:47 阅读全文
posted @ 2019-12-23 22:35 Christine_7 阅读(4795) 评论(0) 推荐(0) 编辑
摘要: 为了确保服务器安全性,正确配置防火墙十分关键。Ubuntu服务器设置防火墙白名单可以使用 和`ufw iptables ufw iptables iptables`简单易执行。 1 设置防火墙白名单 1.1 检查是否安装 1.2 添加 规则 1.3 使防火墙规则生效 添加可执行权限 创建 /etc/ 阅读全文
posted @ 2019-12-17 21:13 Christine_7 阅读(7273) 评论(0) 推荐(0) 编辑
摘要: 使用Dockerfile 构建JDK1.8镜像 step1 编写Dockerfile 查看jdk1.8压缩包是否在文件夹内: Dockerfile内容: step2 安装镜像 step3 验证安装 step4 保存修改的容器 修改后的容器,如果直接stop掉,则这些改动在下次启动时不会保留,因此需要 阅读全文
posted @ 2019-10-07 21:57 Christine_7 阅读(11672) 评论(0) 推荐(0) 编辑