摘要:
实现协同过滤推荐有以下几个步骤: 一、找出最相似的人或物品:TOP-N相似的人或物品 通过计算两两的相似度来进行排序,即可找出TOP-N相似的人或物品 二、根据相似的人或物品产生推荐结果 利用TOP-N结果生成初始推荐结果,然后过滤掉用户已经有过记录的物品或明确表示不感兴趣的物品 常用相似度指标 释 阅读全文
摘要:
###基础工具 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import os import warnings from sklearn.model_sele 阅读全文
摘要:
连接mysql库,定时发邮件 #!/usr/bin/env python # -*- encoding:utf-8 -*- """ @File :mail.py @time : 2021/1/15 14:22 @Author : huixb """ import pandas as pd from 阅读全文
摘要:
基于推荐算法视角,来解决信息流产品用户增长的问题。其中,主要问题就是如何提升留存率。 经典的AARRR模式会逐步转向RARRA模式,提升产品留存、拉活、分享传播等方式是构建增长的主要战场,对于一个内容型产品来说,个性化算法对于用户留存、拉活起到了决定性的作用。 个性化的核心问题主要分为两个: 用户状 阅读全文
摘要:
如果把推荐系统简单拆开来看,推荐系统主要是由数据、算法、架构三个方面组成。 数据提供了信息。数据储存了信息,包括用户与内容的属性,用户的行为偏好例如对新闻的点击、玩过的英雄、购买的物品等等。这些数据特征非常关键,甚至可以说它们决定了一个算法的上限。 算法提供了逻辑。数据通过不断的积累,存储了巨量的信 阅读全文
摘要:
hive 存储 : 存储数据相关标签表、人群计算表的表结构设计以及ID-Mapping的一种实现方式 建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数 阅读全文
摘要:
架构选型 首先在架构上,Flink 采用了经典的主从模式,DataFlow Graph 与 Storm 形成的拓扑 Topology 结构类似,Flink 程序启动后,会根据用户的代码处理成 Stream Graph,然后优化成为 JobGraph,JobManager 会根据 JobGraph 生 阅读全文
摘要:
一、数据倾斜 1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。 数据倾斜原理 目前我们所知道的大数据处理框架,比如 Flink、Spark、Hadoop 等之所以能处理高达千亿的数据,是因为这些框架都利用了分布式计算的思想,集群中多个计算节点并行,使得数据处理能力能 阅读全文
摘要:
Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生,再到转换和输出,这个过程由于网络和反压的原因会导致消息乱序。因此,需要有一个机制来解决这个问题,这个特别的机制就是“水印”。 Flink 的窗口和时间 根据窗口数据划分的不同,目前 Flink 阅读全文
摘要:
1:基于 Flink 的实时数据仓库是如何做的? 我们要从 Flink 的优势开始入手,介绍基于 Flink 的实时数仓建设的关键技术选型和整体设计。 传统的离线数据仓库将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL和其他建模后产出报表等应用。离线数据仓库主要是构建 T+1 的离线数据,通 阅读全文