上一页 1 ··· 125 126 127 128 129 130 131 132 133 ··· 144 下一页

2017年3月1日

10 华电内部文档搜索系统 search05

摘要: 上一节讲述了索引更新的处理方案,这一节首先讲述索引维护的相关方案。每创建一个索引,把文档相关的信息插入到数据库中。这个时候会产生一个唯一的对应的ID,获取这个ID之后,把这个ID又插入到对应的索引文件中。 就是说lucene索引中具体的每一个Document也是包含了一个ID,那么这个ID和数据库的 阅读全文

posted @ 2017-03-01 19:24 绿茵好莱坞 阅读(148) 评论(0) 推荐(0) 编辑

2017年2月28日

lucene4

摘要: 在lucene通过对应的API建立索引。在学习的过程中我们了解到lucene下面索引的建立与关系数据库有相似的地方。 IndexReader.delete删除有两种删除的形式。 第三个改变Document在索引中的重要程度。第四个对索引的优化操作。 怎么通过设置来改善lucene索引的效率。怎么恢复 阅读全文

posted @ 2017-02-28 18:28 绿茵好莱坞 阅读(126) 评论(0) 推荐(0) 编辑

10 华电内部文档搜索系统 search01

摘要: Lucene解决搜索问题。ibatis实现存放问题,就是解决持久化问题。Struts 2做页面显示,就是实现业务层对应的功能。 Spring与ibatis结合, 添加Spring支持 右击项目名s2is->MyEclipse->Add Spring Capabilities 做一个经典的登录校验功能 阅读全文

posted @ 2017-02-28 18:24 绿茵好莱坞 阅读(187) 评论(0) 推荐(0) 编辑

2017年2月27日

01 lucene基础 北风网项目培训 Lucene实践课程 索引

摘要: 在创建索引的过程中IndexWriter会创建多个对应的Segment,这个Segment就是对应一个实体的索引段。随着索引的创建,Segment会慢慢的变大。为了提高索引的效率,IndexWriter会把多个索引段(独立的索引段)合并成一个大的索引段。这样的话可以降低I/O操作的频率,可以提高检索 阅读全文

posted @ 2017-02-27 19:51 绿茵好莱坞 阅读(151) 评论(0) 推荐(0) 编辑

2017年2月26日

01 lucene基础 北风网项目培训 Lucene实践课程 系统架构

摘要: Lucene在搜索的时候数据源可以是文件系统,数据库,web等等。 Lucene的搜索是基于索引,Lucene是基于前面建立的索引之上进行搜索的。 使用Lucene就像使用普通的数据库一样。 Lucene的核心包及其功能说明 Lucene要实现检索,需要有两个关键的环节:第一个环节:索引环节。从不同 阅读全文

posted @ 2017-02-26 18:51 绿茵好莱坞 阅读(141) 评论(0) 推荐(0) 编辑

01 lucene基础 北风网项目培训 Lucene实践课程 Lucene概述

摘要: lucene-core-2.4.1.jar是lucene开发的核心jar包,lucene-analyzers-2.4.1.jar也是必不可少的。lucene-highlighter-2.4.1.jar是学习过程中必不可少的jar包。 学习lucene基本的api在java project下面完成就可 阅读全文

posted @ 2017-02-26 17:44 绿茵好莱坞 阅读(154) 评论(0) 推荐(0) 编辑

2017年2月24日

第五章 大数据平台与技术 第13讲 NoSQL数据库

摘要: NoSQL不是不用SQL,是Not only SQL,不仅仅是结构化的查询。 NoSQL兴起的原因 在Web2.0时代新浪一分钟可以发送两万条微博,苹果可以下载4.7万次应用。 数据的高并发性,同时有90万次的查询向百度的服务器提出了搜索要求。还有高扩展性,Web应用千变万化,可能对字段的需求在不断 阅读全文

posted @ 2017-02-24 14:15 绿茵好莱坞 阅读(144) 评论(0) 推荐(0) 编辑

2017年2月23日

第五章 大数据平台与技术 第12讲 大数据处理平台Spark

摘要: Spark支持多种的编程语言 对比scala和Java编程上节课的计数程序。相比之下,scala简洁明了。 Hadoop的IO开销大导致了延迟高,也就是说任务和任务之间涉及到I/O操作。前一个任务完成之前没有写入硬盘,下一个任务无法从硬盘当中获取数据,从而导致了这个高延迟。 Spark与Hadoop 阅读全文

posted @ 2017-02-23 20:44 绿茵好莱坞 阅读(187) 评论(0) 推荐(0) 编辑

第五章 大数据平台与技术第11讲 MapReduce编程

摘要: 在大规模的数据当中,需要分发任务,需要进行分布式的并行编程。Hadoop这样一种开源的大数据分析平台。 Map阶段 Reduce阶段:相同的键把它聚集到一起之后,然后通过Reduce方式把相同的键聚集的元素进行某种运算。比如说累加运算,比如说累乘运算。 两个步骤:一、输入数据,一行一行;二、产生键值 阅读全文

posted @ 2017-02-23 19:58 绿茵好莱坞 阅读(156) 评论(0) 推荐(0) 编辑

互联网大规模数据分析技术(自主模式)第五章 大数据平台与技术 第10讲 大数据处理平台Hadoop

摘要: 大规模的数据计算对于数据挖掘领域当中的作用。两大主要挑战:第一、如何实现分布式的计算 第二、分布式并行编程。Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题。这是谷歌的一个最基本的计算模式,并且对于大规模数据的分析和处理是一种非常有效的方法。以下四个方面了解大数据处理平台Had 阅读全文

posted @ 2017-02-23 14:20 绿茵好莱坞 阅读(282) 评论(0) 推荐(0) 编辑

上一页 1 ··· 125 126 127 128 129 130 131 132 133 ··· 144 下一页

导航