Python学习(七)——配套《PyTorch深度学习实战》
1. 介绍一下下面这张图
推荐系统自己还差点就去研究了
这张图片概述了几种数据分析和机器学习的应用场景,包括推荐系统、网页搜索、舆情分析、关联规则、社交网络分析以及天气预测。下面是对每个部分的详细解释:
推荐系统
- 用户u, 商品i:推荐系统旨在为特定用户(u)推荐商品(i)。
- 预测用户对商品i的感兴趣程度:这可以通过两种方式实现:
- 二分类问题:预测用户是否会对商品感兴趣(例如,是否会购买),通常表示为
p(y=1|u,i)
,其中y=1
表示感兴趣。 - 回归问题:预测用户对商品的评分,表示为
Rating(i,u)
。
- 二分类问题:预测用户是否会对商品感兴趣(例如,是否会购买),通常表示为
网页搜索
- 用户u, 搜索词q, 网页d:在网页搜索中,系统需要根据用户的搜索词(q)来排序相关网页(d)。
- 排序问题:
rank(d|u,q)
表示根据用户和搜索词来对网页进行排序。
舆情分析
- 美国大选, 问卷分析:舆情分析可以应用于各种场景,如分析公众对政治事件(如美国大选)的看法,通过问卷调查收集数据并进行分析。
关联规则
- 频繁集查找:在市场篮子分析中,寻找经常一起购买的商品集合。
- 物品i,j之间是否存在强关联:例如,著名的“啤酒和尿布”案例,表明某些商品(啤酒和尿布)经常一起购买。
- 沃尔玛:这个案例最初由沃尔玛发现,用于展示关联规则在零售业的应用。
社交网络
- 用户为顶点,好友关系为边:在社交网络分析中,用户被视为图中的顶点,而他们之间的关系(如友谊)被视为边。
- 基于图的聚类, 推荐:通过分析社交网络的结构,可以进行用户聚类或推荐可能的好友。
预测天气
- 预测机场一段时间内是否有雾:这是一个分类问题,预测结果为有雾或无雾。
- 相关气象特征, 分类或回归:使用气象数据(如温度、湿度、风速等)作为特征,可以构建分类或回归模型来预测天气情况。
这些应用场景展示了数据分析和机器学习在不同领域的广泛应用,从推荐系统到社交网络分析,再到天气预测,每个领域都有其特定的问题和解决方案。
2. 介绍下面图片
这张图片概述了数据分析过程中的几个关键步骤,包括数据预处理、数据分析、数据探索和特征工程。下面是对每个部分的详细解释:
数据预处理
数据预处理是数据分析的第一步,它涉及到将原始数据转换为适合分析的格式。
- 真实世界的数据是有噪的:意味着数据可能包含错误、遗漏或不一致的信息。
- 补足缺失值:处理数据中的缺失值,可以通过填充、插值或删除含有缺失值的记录来实现。
- 处理成计算机可读的形式:将数据转换为结构化格式,如将文本数据编码为数字,或将非结构化数据转换为表格形式。
数据分析
数据分析涉及到对数据的深入研究,以发现模式和洞察。
- 过滤无效样本:移除或修正那些不符合要求或损坏的数据点。
- 样本平衡:确保分析中各类别的样本数量均衡,特别是在分类问题中。
- 负样本采样:在不平衡数据集中,可能需要对负样本进行采样以提高模型性能。
数据探索
数据探索是通过观察和分析数据来发现其特性和结构。
- 统计值:计算数据的统计摘要,如均值、中位数、标准差等。
- 相关性:评估变量之间的线性关系。
- 可视化:通过图表和图形来直观展示数据的分布和关系。
特征工程
特征工程是机器学习中的一个重要步骤,它涉及到从原始数据中创建和选择特征。
- 分析相关性:确定特征与目标变量之间的关系强度。
- 分析有效性:评估特征对模型性能的贡献。
- 特征变换:对特征进行数学转换,如归一化、标准化或应用函数(如对数、指数),以提高模型性能。
这些步骤是数据分析和机器学习项目中不可或缺的部分,它们帮助确保数据的质量和模型的准确性。通过这些方法,分析师可以更好地理解数据,为建模和决策提供坚实的基础。