2018 年 3月 7 日随笔档案 - dy9776

2018年3月7日

摘要： Spark中的任务管理是很重要的内容，可以说想要理解Spark的计算流程，就必须对它的任务的切分有一定的了解。不然你就看不懂Spark UI,看不懂Spark UI就无法去做优化...因此本篇就从源码的角度说说其中的一部分，Stage的切分——DAG图的创建先说说概念在Spark中有几个维度的概阅读全文

posted @ 2018-03-07 17:10 dy9776 阅读(421) 评论(0) 推荐(1) 编辑

Spark的运行模式详解

摘要： Spark的运行模式是多种多样的，那么在这篇博客中谈一下Spark的运行模式一：Spark On Local 此种模式下，我们只需要在安装Spark时不进行hadoop和Yarn的环境配置，只要将Spark包解压即可使用，运行时Spark目录下的bin目录执行bin/spark-shell即可具阅读全文

posted @ 2018-03-07 16:52 dy9776 阅读(1091) 评论(0) 推荐(0) 编辑

Spark核心技术原理透视一（Spark运行原理）

摘要：在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。 Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。Spark提供的基于RDD的一体化解决方案，将MapRe 阅读全文

posted @ 2018-03-07 16:46 dy9776 阅读(531) 评论(0) 推荐(0) 编辑

相似度度量计算

摘要：看到很多地方在用这个，就总结一下：相似度度量（Similarity），即计算个体间的相似程度，相似度度量的值越小，说明个体间相似度越小，相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何，一个好的做法就是将这些文本中词语，映射到向量空间，形成文本阅读全文

posted @ 2018-03-07 11:18 dy9776 阅读(723) 评论(0) 推荐(0) 编辑

dy9776

公告