zourui4271

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 56 下一页

2017年5月18日 #

摘要: (1)简单的说: 由driver向集群申请资源,集群分配资源,启动executor。driver将spark应用程序的代码和文件传送给executor。executor上运行task,运行完之后将结果返回给driver或者写入外界。 (2)复杂点说: 提交应用程序,构建sparkContext,构建 阅读全文
posted @ 2017-05-18 14:22 zourui4271 阅读(150) 评论(0) 推荐(0)

2017年4月29日 #

摘要: DagScheduler 和 TaskScheduler 的任务交接 spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个Stage(阶段), 对于划分出来的每个 stag 阅读全文
posted @ 2017-04-29 14:54 zourui4271 阅读(466) 评论(0) 推荐(0)

2017年4月17日 #

摘要: 1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码; 阅读全文
posted @ 2017-04-17 17:25 zourui4271 阅读(498) 评论(0) 推荐(0)

摘要: 作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完 成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到HDFS,然后进行清洗和分析。 后来,根据业务需要,我 阅读全文
posted @ 2017-04-17 08:43 zourui4271 阅读(508) 评论(0) 推荐(0)

摘要: 一、关于spark ml pipeline与机器学习 一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水 阅读全文
posted @ 2017-04-17 08:27 zourui4271 阅读(1520) 评论(0) 推荐(0)

2017年4月11日 #

摘要: K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。K值及初始质心K值是聚类结果中类别的数量。 阅读全文
posted @ 2017-04-11 08:43 zourui4271 阅读(216) 评论(0) 推荐(0)

2017年4月10日 #

摘要: 最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念。 1 为什么要按列存储 列式存储(Columnar or column-based)是相对于传统关系型数据库的 阅读全文
posted @ 2017-04-10 14:44 zourui4271 阅读(330) 评论(0) 推荐(0)

摘要: 线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误、警告、及用户行为等信息,通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题,但当产生大量的日志之后,要想从大量日志里挖掘出有价值的内容,则需要对数据进行进一步的存储和分析。 本文以存储 web 服务的访问日志为例,介绍 阅读全文
posted @ 2017-04-10 13:49 zourui4271 阅读(2063) 评论(0) 推荐(0)

摘要: spark集群由两类集群构成:一个驱动程序,多个执行程序。 1、广播变量 broadcast 广播变量为只读变量,它由运行sparkContext的驱动程序创建后发送给会参与计算 的节点。也可被非驱动程序所在节点(即工作节点)访问,访问是调用该变量的value方法。 广播变量是存储在内存中。 sc. 阅读全文
posted @ 2017-04-10 10:25 zourui4271 阅读(516) 评论(0) 推荐(0)

2017年4月9日 #

摘要: 回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这 阅读全文
posted @ 2017-04-09 12:20 zourui4271 阅读(163) 评论(0) 推荐(0)

上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 56 下一页