2020 年 4月随笔档案 - 云山之巅

Spark调度管理【DAGScheduler，TaskScheduler】

摘要：一.DAGScheduler SparkContext在初始化时，创建了DAG调度和Task调度来负责RDD Action操作的调度执行。 DAGScheduler负责Spark的最高级别的任务调度，调度的粒度是Stage，它为每个Job的所有Stage计算一个有向无环图，控制它们的并发，并找到一个阅读全文

posted @ 2020-04-29 11:02 云山之巅阅读(680) 评论(0) 推荐(0) 编辑

Solr搜索结果高级设置

摘要：一.选择响应格式 XML是Solr的默认响应格式。从Solr的角度看，什么样的响应格式并不重要。Solr可以返回XML、JSON、Ruby、Python、PHP、二进制Java等，甚至是自定义格式。使用wt参数修改响应格式。Solr的wt参数的可用格式如下：当需要更改Solr的响应格式时，需要在请阅读全文

posted @ 2020-04-26 18:47 云山之巅阅读(664) 评论(0) 推荐(0) 编辑

Solr复杂查询一：函数查询

摘要：一.简介 Solr的函数可以动态计算每个文档的值，而不是返回在索引阶段对应字段的静态数值集。函数查询是一类特殊的查询，它可以像关键词一样添加到查询中，对所有文档进行匹配并返回它们的函数计算值作为文档得分。使用函数查询，函数计算结果将用于修改相关度得分或用于搜索结果的排序。在应用程序层，函数计算的结果阅读全文

posted @ 2020-04-17 11:30 云山之巅阅读(2031) 评论(1) 推荐(0) 编辑

Spark之SparkContext源码分析

摘要：一.简介 SparkContext是Spark程序最主要的入口，用于与Spark集群连接。Spark集群的所有操作都通过SparkContext来进行，使用它可以在Spark集群上创建RDD、计数器以及广播变量。所有的Spark程序都必须创建一个SparkContext对象。进行流式计算时使用的St 阅读全文

posted @ 2020-04-14 18:35 云山之巅阅读(689) 评论(0) 推荐(0) 编辑

Spark之RDD内核剖析

摘要：一.Spark核心数据结构RDD RDD是Spark最重要的抽象，掌握了RDD，可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助，也可能提升Spark程序编写能力。 RDD的全称是“弹性分布式数据集”。首先，它是一个数据集，就像Scala语言中的Array,List,Tu 阅读全文

posted @ 2020-04-11 15:53 云山之巅阅读(411) 评论(0) 推荐(0) 编辑

Spark配置管理

摘要：一.简介 Spark对程序提供了非常灵活的配置方式，可以使用环境变量、配置文件、命令行参数，还可以直接在Spark程序中指定，不同的配置方式有不同的优先级，可以相互覆盖。而且这些配置的属性在Web界面中可以直接看到，非常方便我们管理配置。二.Spark程序配置加载过程 Spark程序一般都是由脚本阅读全文

posted @ 2020-04-08 20:24 云山之巅阅读(560) 评论(0) 推荐(0) 编辑

HBase储备知识三：基本信息

摘要：一.背景 2003年，Google发表了“The Google File System”的论文。这个分布式文件系统简称GFS，它使用商用硬件集群存储海量数据。文件系统将数据在节点之间冗余复制，这样的话，即使一台存储服务器发生故障，也不会影响数据的可用性。它对数据的流式读取也做了优化，可以边处理边读取阅读全文

posted @ 2020-04-06 18:51 云山之巅阅读(328) 评论(0) 推荐(0) 编辑

HBase储备知识一：相关基本信息

摘要：一.维度 1.数据模型数据有多种存储的方式，包括键值对【类似Map】、半结构化的列式存储和文档结构存储。 2.存储模型内存还是磁盘持久化可以和RDBMS进行比较，它们通常持久化存储数据到磁盘中。即使需要的是纯粹内存模式，也仍旧有其他方案。一旦考虑持久化存储，就需要考虑选择的方案是否影响到访问模式阅读全文

posted @ 2020-04-04 18:05 云山之巅阅读(192) 评论(0) 推荐(0) 编辑

云山之巅

------自学是你超越他人使自己变的重要的一种能力！

04 2020 档案

公告

最新随笔

我的标签

积分与排名

随笔分类 (82)

随笔档案 (315)

相册 (11)

阅读排行榜

评论排行榜

推荐排行榜

最新评论