Christbao

2022年2月15日

摘要：实现协同过滤推荐有以下几个步骤：一、找出最相似的人或物品：TOP-N相似的人或物品通过计算两两的相似度来进行排序，即可找出TOP-N相似的人或物品二、根据相似的人或物品产生推荐结果利用TOP-N结果生成初始推荐结果，然后过滤掉用户已经有过记录的物品或明确表示不感兴趣的物品常用相似度指标释阅读全文

posted @ 2022-02-15 00:17 Christbao 阅读(234) 评论(0) 推荐(0)

2021年1月15日

lightGBM基础模型步骤

摘要： ###基础工具 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import os import warnings from sklearn.model_sele 阅读全文

posted @ 2021-01-15 17:17 Christbao 阅读(1063) 评论(0) 推荐(0)

Python 发邮件及邮件附件

摘要：连接mysql库，定时发邮件 #!/usr/bin/env python # -*- encoding:utf-8 -*- """ @File :mail.py @time : 2021/1/15 14:22 @Author : huixb """ import pandas as pd from 阅读全文

posted @ 2021-01-15 14:36 Christbao 阅读(291) 评论(0) 推荐(0)

2020年12月24日

面向增长的用户画像

摘要：基于推荐算法视角，来解决信息流产品用户增长的问题。其中，主要问题就是如何提升留存率。经典的AARRR模式会逐步转向RARRA模式，提升产品留存、拉活、分享传播等方式是构建增长的主要战场，对于一个内容型产品来说，个性化算法对于用户留存、拉活起到了决定性的作用。个性化的核心问题主要分为两个：用户状阅读全文

posted @ 2020-12-24 15:16 Christbao 阅读(364) 评论(0) 推荐(0)

2020年10月16日

推荐系统全貌

摘要：如果把推荐系统简单拆开来看，推荐系统主要是由数据、算法、架构三个方面组成。数据提供了信息。数据储存了信息，包括用户与内容的属性，用户的行为偏好例如对新闻的点击、玩过的英雄、购买的物品等等。这些数据特征非常关键，甚至可以说它们决定了一个算法的上限。算法提供了逻辑。数据通过不断的积累，存储了巨量的信阅读全文

posted @ 2020-10-16 11:21 Christbao 阅读(240) 评论(0) 推荐(0)

2020年10月14日

用户画像特征及标签存储

摘要： hive 存储：存储数据相关标签表、人群计算表的表结构设计以及ID-Mapping的一种实现方式建立用户画像首先需要建立数据仓库，用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具，依赖于HDFS存储数据，提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数阅读全文

posted @ 2020-10-14 15:39 Christbao 阅读(2938) 评论(0) 推荐(0)

2020年9月21日

五、Flink 在实时计算平台和实时数据仓库中的作用

摘要：架构选型首先在架构上，Flink 采用了经典的主从模式，DataFlow Graph 与 Storm 形成的拓扑 Topology 结构类似，Flink 程序启动后，会根据用户的代码处理成 Stream Graph，然后优化成为 JobGraph，JobManager 会根据 JobGraph 生阅读全文

posted @ 2020-09-21 13:54 Christbao 阅读(1817) 评论(0) 推荐(0)

四、Flink数据倾斜问题

摘要：一、数据倾斜 1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。数据倾斜原理目前我们所知道的大数据处理框架，比如 Flink、Spark、Hadoop 等之所以能处理高达千亿的数据，是因为这些框架都利用了分布式计算的思想，集群中多个计算节点并行，使得数据处理能力能阅读全文

posted @ 2020-09-21 13:37 Christbao 阅读(4721) 评论(0) 推荐(0)

三、Flink 窗口、时间和水印及Exactly-once 原理

摘要： Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生，再到转换和输出，这个过程由于网络和反压的原因会导致消息乱序。因此，需要有一个机制来解决这个问题，这个特别的机制就是“水印”。 Flink 的窗口和时间根据窗口数据划分的不同，目前 Flink 阅读全文

posted @ 2020-09-21 11:37 Christbao 阅读(693) 评论(0) 推荐(0)

附录3：Flink 方案设计

摘要： 1：基于 Flink 的实时数据仓库是如何做的？我们要从 Flink 的优势开始入手，介绍基于 Flink 的实时数仓建设的关键技术选型和整体设计。传统的离线数据仓库将业务数据集中进行存储后，以固定的计算逻辑定时进行ETL和其他建模后产出报表等应用。离线数据仓库主要是构建 T+1 的离线数据，通阅读全文

posted @ 2020-09-21 11:26 Christbao 阅读(599) 评论(0) 推荐(0)

世界上最公平的是时间

公告