随笔分类 -  文献阅读

阅读不同的文献,记录学习感想、学习笔记。
摘要:《Matrix Factorization Techniques for Context-Aware Collaborative Filtering Recommender System: A Survey》,2018年,在dblp可下载。 摘要 协同过滤推荐系统通过学习过去用户项目关系来预测用户在 阅读全文
posted @ 2020-08-02 16:13 Tanglement 阅读(738) 评论(0) 推荐(0)
摘要:于2019年6月发表于计算机应用研究。作者,西南交通大学的曹占伟。 摘要 传统协同过滤推荐算法存在冷启动、数据稀疏以及相似度度量准确性的问题(这里作者指出还有一个相似度度量准确性的问题,普遍是冷启动和数据稀疏)。 基于LDA主题模型对文本隐式主题挖掘很有效(我把这个理解为挖掘上下文信息以处理冷启动) 阅读全文
posted @ 2020-08-01 21:07 Tanglement 阅读(488) 评论(0) 推荐(0)
摘要:2017年发表在计算机工程于应用。 摘要 总结和分析了传统机器学习算法在海量数据场景霞出现的若干问题,基于当代并行机分类回顾了国内外并行机器学习算法的研究现状,并归纳总结了并行机器学习算法在各种基础体系下存在的问题。 引言 传统机器学习算法在海量数据下计算代价高、延迟性高、无法处理所有数据,从根本上 阅读全文
posted @ 2020-07-17 09:49 Tanglement 阅读(511) 评论(1) 推荐(0)
摘要:2019年3月发表于计算机科学。可在知网下载。 本文内容 摘要 分布式机器学习的核心思想“分而治之”。分布式机器学习是机器学习的研究领域之一。分布式机器学习的主流平台有Spark、MXNet、Petuum、TensorFlow及PyTorch。本文对这些平台深入总结,分析对比其特性。其次,从数据并行 阅读全文
posted @ 2020-07-16 17:00 Tanglement 阅读(915) 评论(0) 推荐(0)
摘要:在知网可以下载。发表于2014年9年。 引言 在存储数据方面,Spark采取数据块的方式分布式存储在集群的各个节点,不支持传统并行数据仓库中的数据预划分和数据索引。也就是Spark无法干预数据的分布。 但是传统并行分析型数据块中,对等值连接操作的优化大多基于数据预划分。(这种情况使得Spark不能通 阅读全文
posted @ 2020-06-24 15:09 Tanglement 阅读(273) 评论(0) 推荐(0)
摘要:背景 集群资源管理,一般有计算资源、存储资源、网络资源。当前调度优化一般有基于数据本地研究与改进、负载均衡和基于作业优先级。 基于网络资源调度策略研究现状 大数据对网络资源的要求很高。网络资源调度,一般是基于SDN的改进。SDN,软件定义网络。使用一个控制器来使得网络达到负载均衡。对于网络资源的调度 阅读全文
posted @ 2020-06-20 13:04 Tanglement 阅读(229) 评论(0) 推荐(0)
摘要:通过知网可以查到这篇文章。于2020年3月发表在计算机应用研究。 背景 K-means是聚类算法的经典算法。由于运行时,初始聚类中心点和簇数的不确定性,使聚类结果存在很大不稳定性。两个缺点:一是要初始化中心,随机选择,具有不确定性;二是要有几个中心,也具有不确定性。 一般对K-means的改进,是中 阅读全文
posted @ 2020-06-18 09:47 Tanglement 阅读(422) 评论(0) 推荐(0)
摘要:通过知网下载此篇文章。于2018年7月发表在计算机科学。 引言 大数据平台的执行环境由于受到底层硬件、体系结构、操作系统、Spark框架本身以及用户编写的应用程序等多层次的综合影响。 如果不了解Spark底层复杂的执行机制,就找不到性能瓶颈,也就无法优化。 Spark工作原理 (这里只记录自己觉得需 阅读全文
posted @ 2020-06-17 15:43 Tanglement 阅读(317) 评论(0) 推荐(0)
摘要:通过知网可以下载这篇文章。是厦门大学唐振坤的硕士学位论文。 背景 本文讲述了基于“统计查询模型”和MapReduce,提出了能适用于海量数据的机器学习算法。随后有人开发出了Mahout机器学习算法库。但是由于Spark的内存计算和Spark Streaming对流数据的处理,MapReduce并不是 阅读全文
posted @ 2020-06-16 10:46 Tanglement 阅读(618) 评论(0) 推荐(0)
摘要:这篇文章可以在知网下载,发表时间2020-06-07。以下是个人对这篇文章的阅读笔记和个人感想。 侵删。 背景和简介 通过摘要和介绍,可以了解到Spark的“统一内存管理”模型共分为4层,自上往下分别是Spark层、JVM层、OS层、Hardware层。目前对Spark的性能优化,只停留在某一层。 阅读全文
posted @ 2020-06-15 11:08 Tanglement 阅读(290) 评论(0) 推荐(0)