04 2020 档案

摘要:一.DAGScheduler SparkContext在初始化时,创建了DAG调度和Task调度来负责RDD Action操作的调度执行。 DAGScheduler负责Spark的最高级别的任务调度,调度的粒度是Stage,它为每个Job的所有Stage计算一个有向无环图,控制它们的并发,并找到一个 阅读全文
posted @ 2020-04-29 11:02 云山之巅 阅读(680) 评论(0) 推荐(0) 编辑
摘要:一.选择响应格式 XML是Solr的默认响应格式。从Solr的角度看,什么样的响应格式并不重要。Solr可以返回XML、JSON、Ruby、Python、PHP、二进制Java等,甚至是自定义格式。使用wt参数修改响应格式。Solr的wt参数的可用格式如下: 当需要更改Solr的响应格式时,需要在请 阅读全文
posted @ 2020-04-26 18:47 云山之巅 阅读(664) 评论(0) 推荐(0) 编辑
摘要:一.简介 Solr的函数可以动态计算每个文档的值,而不是返回在索引阶段对应字段的静态数值集。函数查询是一类特殊的查询,它可以像关键词一样添加到查询中,对所有文档进行匹配并返回它们的函数计算值作为文档得分。使用函数查询,函数计算结果将用于修改相关度得分或用于搜索结果的排序。在应用程序层,函数计算的结果 阅读全文
posted @ 2020-04-17 11:30 云山之巅 阅读(2031) 评论(1) 推荐(0) 编辑
摘要:一.简介 SparkContext是Spark程序最主要的入口,用于与Spark集群连接。Spark集群的所有操作都通过SparkContext来进行,使用它可以在Spark集群上创建RDD、计数器以及广播变量。所有的Spark程序都必须创建一个SparkContext对象。进行流式计算时使用的St 阅读全文
posted @ 2020-04-14 18:35 云山之巅 阅读(689) 评论(0) 推荐(0) 编辑
摘要:一.Spark核心数据结构RDD RDD是Spark最重要的抽象,掌握了RDD,可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助, 也可能提升Spark程序编写能力。 RDD的全称是“弹性分布式数据集”。首先,它是一个数据集,就像Scala语言中的Array,List,Tu 阅读全文
posted @ 2020-04-11 15:53 云山之巅 阅读(411) 评论(0) 推荐(0) 编辑
摘要:一.简介 Spark对程序提供了非常灵活的配置方式,可以使用环境变量、配置文件、命令行参数,还可以直接在Spark程序中指定,不同的配置方式有不同的优先级,可以相互覆盖。而且这些配置的属性在Web界面中可以直接看到,非常方便我们管理配置。 二.Spark程序配置加载过程 Spark程序一般都是由脚本 阅读全文
posted @ 2020-04-08 20:24 云山之巅 阅读(560) 评论(0) 推荐(0) 编辑
摘要:一.背景 2003年,Google发表了“The Google File System”的论文。这个分布式文件系统简称GFS,它使用商用硬件集群存储海量数据。文件系统将数据在节点之间冗余复制,这样的话,即使一台存储服务器发生故障,也不会影响数据的可用性。它对数据的流式读取也做了优化,可以边处理边读取 阅读全文
posted @ 2020-04-06 18:51 云山之巅 阅读(328) 评论(0) 推荐(0) 编辑
摘要:一.维度 1.数据模型 数据有多种存储的方式,包括键值对【类似Map】、半结构化的列式存储和文档结构存储。 2.存储模型 内存还是磁盘持久化可以和RDBMS进行比较,它们通常持久化存储数据到磁盘中。即使需要的是纯粹内存模式,也仍旧有其他方案。一旦考虑持久化存储,就需要考虑选择的方案是否影响到访问模式 阅读全文
posted @ 2020-04-04 18:05 云山之巅 阅读(192) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示