摘要:
1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下数据场景,比如有这样一个数据场景,有一批实时流数据实时写入Kafka,然后需要对Topic中的数据进 阅读全文
摘要:
1.概述 Kafka是一个分布式消息中间件系统,里面存储着实际场景中的数据。Kafka原生是不支持点查询的,如果我们想对存储在Topic中的数据进行查询,可能需要对Topic中的数据进行消费落地,然后构建索引(或者数据落地到自带所以的存储系统中,例如HBase、Hive等)。今天,笔者就为大家来介绍 阅读全文
摘要:
1.概述 前面的博客介绍过如何构建一个推荐系统,以及简要的介绍了协同过滤的实现。本篇博客,笔者将介绍协同过滤在推荐系统的应用。推荐系统是大数据和机器学习中最常见、最容易理解的应用之一。其实,在日常的生活当中,我们会频繁的遇到推荐的场景 ,比如你在电商网站购买商品、使用视频App观看视频、在手机上下载 阅读全文
摘要:
1.概述 最近有同学咨询Kafka的消费和心跳机制,今天笔者将通过这篇博客来逐一介绍这些内容。 2.内容 2.1 Kafka消费 首先,我们来看看消费。Kafka提供了非常简单的消费API,使用者只需初始化Kafka的Broker Server地址,然后实例化KafkaConsumer类即可拿到To 阅读全文
摘要:
1.概述 前面介绍过什么是推荐系统,以及推荐系统中的用例,比如基于用户的协同过滤来构建推荐系统。今天给大家介绍如何构建一个生产环境的推荐系统。 2.内容 现在互联网上的内容很多,我们可能每天都会接受来自不同消息。例如,电商网站、阅读博客、各类新闻文章等。但是,这些消息并不是所有的内容你都感兴趣,可能 阅读全文
摘要:
1.概述 Kafka Eagle是一款用于管理Kafka的监控系统,且完全开源。当前Kafka Eagle发布了2.0.0版本。今天笔者就为大家来介绍一下2.0.0更新了哪些功能。 官网地址:http://www.kafka-eagle.org/ 开源地址:https://github.com/sm 阅读全文
摘要:
1.概述 之前介绍了如何构建一个推荐系统,今天给大家介绍如何基于用户的协同过滤来构建推荐的实战篇。 2.内容 协同过滤技术在推荐系统中应用的比较广泛,它是一个快速发展的研究领域。它比较常用的两种方法是基于内存(Memory-Based)和基于模型(Model-Based)。 基于内存:主要通过计算近 阅读全文
摘要:
1.概述 最近有同学咨询说,Kafka的SSL安全认证如何安装与使用?今天笔者将通过以下几个方面来介绍Kafka的SSL: Kafka 权限介绍 Kafka SSL的安装与使用 Kafka Eagle中如何配置SSL? 2.内容 2.1 什么是Kafka权限认证? 在Kafka 0.9.0.0之后, 阅读全文
摘要:
1.概述 最近有被咨询到一些关于推荐系统的问题,今天笔者将为大家分享一些关于如何构建一个推荐系统。 2.内容 2.1 什么是推荐系统? 推荐系统是一种信息过滤系统,它旨在预测用户对某项商品的评价。然后,此预测的评分用于向用户推荐商品。预测评分较高的商品将推荐给用户,这个推荐系统用于推荐范围广泛的项目 阅读全文
摘要:
1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上。 2.内容 这里举个消费Kafka的数据的场景。比如,电商平台、游戏平台产生的用户数据,入库到Kafka中的Topic进行存储,然 阅读全文