绿茵好莱坞 - 博客园

10 华电内部文档搜索系统 search05

摘要：上一节讲述了索引更新的处理方案，这一节首先讲述索引维护的相关方案。每创建一个索引，把文档相关的信息插入到数据库中。这个时候会产生一个唯一的对应的ID，获取这个ID之后，把这个ID又插入到对应的索引文件中。就是说lucene索引中具体的每一个Document也是包含了一个ID，那么这个ID和数据库的阅读全文

posted @ 2017-03-01 19:24 绿茵好莱坞阅读(149) 评论(0) 推荐(0) 编辑

lucene4

摘要：在lucene通过对应的API建立索引。在学习的过程中我们了解到lucene下面索引的建立与关系数据库有相似的地方。 IndexReader.delete删除有两种删除的形式。第三个改变Document在索引中的重要程度。第四个对索引的优化操作。怎么通过设置来改善lucene索引的效率。怎么恢复阅读全文

posted @ 2017-02-28 18:28 绿茵好莱坞阅读(127) 评论(0) 推荐(0) 编辑

10 华电内部文档搜索系统 search01

摘要： Lucene解决搜索问题。ibatis实现存放问题，就是解决持久化问题。Struts 2做页面显示，就是实现业务层对应的功能。 Spring与ibatis结合, 添加Spring支持右击项目名s2is->MyEclipse->Add Spring Capabilities 做一个经典的登录校验功能阅读全文

posted @ 2017-02-28 18:24 绿茵好莱坞阅读(188) 评论(0) 推荐(0) 编辑

01 lucene基础北风网项目培训 Lucene实践课程索引

摘要：在创建索引的过程中IndexWriter会创建多个对应的Segment,这个Segment就是对应一个实体的索引段。随着索引的创建，Segment会慢慢的变大。为了提高索引的效率，IndexWriter会把多个索引段(独立的索引段)合并成一个大的索引段。这样的话可以降低I/O操作的频率，可以提高检索阅读全文

posted @ 2017-02-27 19:51 绿茵好莱坞阅读(152) 评论(0) 推荐(0) 编辑

01 lucene基础北风网项目培训 Lucene实践课程系统架构

摘要： Lucene在搜索的时候数据源可以是文件系统，数据库，web等等。 Lucene的搜索是基于索引，Lucene是基于前面建立的索引之上进行搜索的。使用Lucene就像使用普通的数据库一样。 Lucene的核心包及其功能说明 Lucene要实现检索，需要有两个关键的环节：第一个环节：索引环节。从不同阅读全文

posted @ 2017-02-26 18:51 绿茵好莱坞阅读(142) 评论(0) 推荐(0) 编辑

01 lucene基础北风网项目培训 Lucene实践课程 Lucene概述

摘要： lucene-core-2.4.1.jar是lucene开发的核心jar包，lucene-analyzers-2.4.1.jar也是必不可少的。lucene-highlighter-2.4.1.jar是学习过程中必不可少的jar包。学习lucene基本的api在java project下面完成就可阅读全文

posted @ 2017-02-26 17:44 绿茵好莱坞阅读(155) 评论(0) 推荐(0) 编辑

第五章大数据平台与技术第13讲 NoSQL数据库

摘要： NoSQL不是不用SQL，是Not only SQL，不仅仅是结构化的查询。 NoSQL兴起的原因在Web2.0时代新浪一分钟可以发送两万条微博，苹果可以下载4.7万次应用。数据的高并发性，同时有90万次的查询向百度的服务器提出了搜索要求。还有高扩展性，Web应用千变万化，可能对字段的需求在不断阅读全文

posted @ 2017-02-24 14:15 绿茵好莱坞阅读(145) 评论(0) 推荐(0) 编辑

第五章大数据平台与技术第12讲大数据处理平台Spark

摘要： Spark支持多种的编程语言对比scala和Java编程上节课的计数程序。相比之下，scala简洁明了。 Hadoop的IO开销大导致了延迟高，也就是说任务和任务之间涉及到I/O操作。前一个任务完成之前没有写入硬盘，下一个任务无法从硬盘当中获取数据，从而导致了这个高延迟。 Spark与Hadoop 阅读全文

posted @ 2017-02-23 20:44 绿茵好莱坞阅读(188) 评论(0) 推荐(0) 编辑

第五章大数据平台与技术第11讲 MapReduce编程

摘要：在大规模的数据当中，需要分发任务，需要进行分布式的并行编程。Hadoop这样一种开源的大数据分析平台。 Map阶段 Reduce阶段：相同的键把它聚集到一起之后，然后通过Reduce方式把相同的键聚集的元素进行某种运算。比如说累加运算，比如说累乘运算。两个步骤：一、输入数据，一行一行；二、产生键值阅读全文

posted @ 2017-02-23 19:58 绿茵好莱坞阅读(157) 评论(0) 推荐(0) 编辑

互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop

摘要：大规模的数据计算对于数据挖掘领域当中的作用。两大主要挑战：第一、如何实现分布式的计算第二、分布式并行编程。Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题。这是谷歌的一个最基本的计算模式，并且对于大规模数据的分析和处理是一种非常有效的方法。以下四个方面了解大数据处理平台Had 阅读全文

posted @ 2017-02-23 14:20 绿茵好莱坞阅读(283) 评论(0) 推荐(0) 编辑