09 2019 档案
摘要:一.数据分析行业发展 1.如何收集、保存、管理、分析、共享正在呈指数式增长的数据是我们必须要面对的一个重要挑战。 2.数据分析包括数据采集、数据存储、检查、清洗、分析、转换和建模等方法对数据进行处理的一系列流程。用于结果的呈现和商业应用。 3.大数据4V特点:Volume【大量】、Velocity【
阅读全文
摘要:一.简介 BLAS【Basic Linear Algebra Subprograms,基础线性代数程序集】是一个应用程序接口【API】标准,用于规范发布基础基础线性代数操作的数值库【常用于向量或矩阵计算】。该程序集最初发布于1979年,并用于创建更大的数值程序包【例如:LAPACK】。在高性能计算领
阅读全文
摘要:一.简介 Tachyon是介于磁盘存储和计算框架之间的一种中间件,用于实现分布式的内存文件读写等功能,实现分布式集群内部共享数据。 应用实例: 二.架构 1.心跳机制 在Tachyon中,心跳用于Master/Worker/Client之间的定期通信以及Master/Worker自身的状态自检。 >
阅读全文
摘要:一.Solr4.x新特性 1.近实时搜索 Solr的近实时搜索【Near Real-Time,NRT】功能实现了文档添加到搜索的快速进行,以应对搜索快速变化的数据。 2.原子更新与乐观并发 原子更新功能允许客户端应用对已有文档上进行添加、更新、删除和对字段增值等操作,而且无需重新发送整个文档。当存在
阅读全文
摘要:一.combineByKey算子简介 功能:实现分组自定义求和及计数。 特点:用于处理(key,value)类型的数据。 实现步骤: 1.对要处理的数据进行初始化,以及一些转化操作 2.检测key是否是首次处理,首次处理则添加,否则则进行分区内合并【根据自定义逻辑】 3.分组合并,返回结果 二.co
阅读全文
摘要:一.简介 寻找匹配的文档是构建优质搜索体验的关键步骤,但这仅仅是第一步。大多数用户不愿意通过逐页翻阅搜索结果来找到想要的文档。根据一般经验,仅有10%的用户在网页搜索中有意愿继续翻阅第一页以后的搜索结果,仅有1%的用户会翻看到第三页结果。Solr实现了搜索结果排序,最佳的结果位于列表顶端。它会计算每
阅读全文
摘要:一.排名检索 搜索引擎代表了基于查询,返回优先文档的一种方法。在关系型数据库的SQL查询中,表的一行要么匹配一个查询,要么不匹配,查询结果基于一列或多列排序。搜索引擎根据文档与查询匹配的程度为文档打分,并按降序返回结果。匹配程度的计算取决于多个因素,一般而言,文档得分越高意味着该文档与查询的相关性越
阅读全文