文献阅读 - 随笔分类 - Tanglement

《上下文感知协同过滤推荐系统的矩阵分解技术综述》学习笔记

摘要：《Matrix Factorization Techniques for Context-Aware Collaborative Filtering Recommender System: A Survey》，2018年，在dblp可下载。摘要协同过滤推荐系统通过学习过去用户项目关系来预测用户在阅读全文

posted @ 2020-08-02 16:13 Tanglement 阅读(762) 评论(0) 推荐(0)

《一种结合主题模型的推荐算法》学习笔记

摘要：于2019年6月发表于计算机应用研究。作者，西南交通大学的曹占伟。摘要传统协同过滤推荐算法存在冷启动、数据稀疏以及相似度度量准确性的问题（这里作者指出还有一个相似度度量准确性的问题，普遍是冷启动和数据稀疏）。基于LDA主题模型对文本隐式主题挖掘很有效（我把这个理解为挖掘上下文信息以处理冷启动）阅读全文

posted @ 2020-08-01 21:07 Tanglement 阅读(523) 评论(0) 推荐(0)

《并行机器学习算法基础体系前沿进展综述》学习笔记

摘要：2017年发表在计算机工程于应用。摘要总结和分析了传统机器学习算法在海量数据场景霞出现的若干问题，基于当代并行机分类回顾了国内外并行机器学习算法的研究现状，并归纳总结了并行机器学习算法在各种基础体系下存在的问题。引言传统机器学习算法在海量数据下计算代价高、延迟性高、无法处理所有数据，从根本上阅读全文

posted @ 2020-07-17 09:49 Tanglement 阅读(526) 评论(1) 推荐(0)

《分布式机器学习平台与算法综述》学习笔记

摘要：2019年3月发表于计算机科学。可在知网下载。本文内容摘要分布式机器学习的核心思想“分而治之”。分布式机器学习是机器学习的研究领域之一。分布式机器学习的主流平台有Spark、MXNet、Petuum、TensorFlow及PyTorch。本文对这些平台深入总结，分析对比其特性。其次，从数据并行阅读全文

posted @ 2020-07-16 17:00 Tanglement 阅读(947) 评论(0) 推荐(0)

《Spark上的等值连接优化》学习笔记

摘要：在知网可以下载。发表于2014年9年。引言在存储数据方面，Spark采取数据块的方式分布式存储在集群的各个节点，不支持传统并行数据仓库中的数据预划分和数据索引。也就是Spark无法干预数据的分布。但是传统并行分析型数据块中，对等值连接操作的优化大多基于数据预划分。（这种情况使得Spark不能通阅读全文

posted @ 2020-06-24 15:09 Tanglement 阅读(293) 评论(0) 推荐(0)

《基于Spark平台的资源调度策略研究现状》学习笔记

摘要：背景集群资源管理，一般有计算资源、存储资源、网络资源。当前调度优化一般有基于数据本地研究与改进、负载均衡和基于作业优先级。基于网络资源调度策略研究现状大数据对网络资源的要求很高。网络资源调度，一般是基于SDN的改进。SDN，软件定义网络。使用一个控制器来使得网络达到负载均衡。对于网络资源的调度阅读全文

posted @ 2020-06-20 13:04 Tanglement 阅读(241) 评论(0) 推荐(0)

《Spark环境下K-means初始中心点优化研究综述》学习笔记

摘要：通过知网可以查到这篇文章。于2020年3月发表在计算机应用研究。背景 K-means是聚类算法的经典算法。由于运行时，初始聚类中心点和簇数的不确定性，使聚类结果存在很大不稳定性。两个缺点：一是要初始化中心，随机选择，具有不确定性；二是要有几个中心，也具有不确定性。一般对K-means的改进，是中阅读全文

posted @ 2020-06-18 09:47 Tanglement 阅读(457) 评论(0) 推荐(0)

《Spark性能优化技术研究综述》学习笔记

摘要：通过知网下载此篇文章。于2018年7月发表在计算机科学。引言大数据平台的执行环境由于受到底层硬件、体系结构、操作系统、Spark框架本身以及用户编写的应用程序等多层次的综合影响。如果不了解Spark底层复杂的执行机制，就找不到性能瓶颈，也就无法优化。 Spark工作原理（这里只记录自己觉得需阅读全文

posted @ 2020-06-17 15:43 Tanglement 阅读(363) 评论(0) 推荐(0)

《基于Spark的机器学习平台设计与实现》学习笔记

摘要：通过知网可以下载这篇文章。是厦门大学唐振坤的硕士学位论文。背景本文讲述了基于“统计查询模型”和MapReduce，提出了能适用于海量数据的机器学习算法。随后有人开发出了Mahout机器学习算法库。但是由于Spark的内存计算和Spark Streaming对流数据的处理，MapReduce并不是阅读全文

posted @ 2020-06-16 10:46 Tanglement 阅读(651) 评论(0) 推荐(0)

《基于Spark的大数据访存行为跨层分析工具》学习笔记

摘要：这篇文章可以在知网下载，发表时间2020-06-07。以下是个人对这篇文章的阅读笔记和个人感想。侵删。背景和简介通过摘要和介绍，可以了解到Spark的“统一内存管理”模型共分为4层，自上往下分别是Spark层、JVM层、OS层、Hardware层。目前对Spark的性能优化，只停留在某一层。阅读全文

posted @ 2020-06-15 11:08 Tanglement 阅读(303) 评论(0) 推荐(0)

随笔分类 - 文献阅读

公告