摘要:
转载自:http://www.open-open.com/lib/view/open1328670771405.html1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。1.1、Nutch的组件... 阅读全文
摘要:
在对nutch源代码运行ant runtime后,会创建一个runtime的目录,在runtime目录下有deploy和local 2个目录。[jediael@jediael runtime]$ lsdeploy local这2个目录分别代表nutch的2种运行方式:部署模式及本地模式。1、nutc... 阅读全文
摘要:
1、下载hadoop-eclipse-plugin-1.2.1.jar,并将之复制到eclipse/plugins下。2、打开map-reduce视图在eclipse中,打开window——>open perspetive——>other,选择map/reduce。3、选择Map/Reduce Lo... 阅读全文
摘要:
Hadoop提供了大量的API对文件系统中的文件进行操作,主要包括:(1)读取文件(2)写文件(3)读取文件属性(4)列出文件(5)删除文件1、读取文件以下示例中,将hdfs中的一个文件读取出来,并输出到标准输出流中。package org.jediael.hadoopdemo.fsdemo;imp... 阅读全文
摘要:
一、规划(一)硬件资源10.171.29.191 master10.173.54.84 slave110.171.114.223 slave2(二)基本资料用户: jediael目录:/opt/jediael/二、环境配置(一)统一用户名密码,并为jediael赋予执行所有命令的权限#passwd#... 阅读全文
摘要:
1、下载rpm文件并安装rpm -ivh jdk-7u51-linux-x64.rpm2、修改/etc/profile文件,增加以下配置export JAVA_HOME=/usr/java/jdk1.7.0_51export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JA... 阅读全文
摘要:
更详细的内容请参考:http://www.w3school.com.cn/tags/tag_a.aspHTML中的代码如下:可以通过以下方式来改变其默认的显示样式:.news_title { font: normal 18px/28px "Microsoft YaHei"; font-s... 阅读全文
摘要:
一、各个主要类之间的关系SolrIndexerJob extends IndexerJob1、IndexerJob:主要完成2、SolrIndexerJob:主要完成3、IndexUtil:主要只有一个方法public NutchDocument index(String key, WebPage ... 阅读全文
摘要:
小结:(1)在nutch中,一般通过ToolRunner来运行hadoop job,此方法可以方便的通过ToolRunner.run(Configuration conf,Tool tool,String[] args)来加载配置文件。(2)conf参数会通过NutchConfiguration.c... 阅读全文
摘要:
转自:http://blog.csdn.net/carefree31441/article/details/3998553UUID含义是通用唯一识别码 (Universally Unique Identifier),这 是一个软件建构的标准,也是被开源软件基金会 (Open Software Fou... 阅读全文
摘要:
为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser,更方便的方式是:实现Tool接口,... 阅读全文
摘要:
以下程序在hadoop1.2.1上测试成功。本例先将源代码呈现,然后详细说明执行步骤,最后对源代码及执行过程进行分析。一、源代码package org.jediael.hadoopdemo.wordcount;import java.io.IOException;import java.util.S... 阅读全文
摘要:
部分内容参考:http://www.linuxqq.net/archives/964.html http://slaytanic.blog.51cto.com/2057708/1100974/hadoop的重要配置文件有以下几个: 在1.2.1版本中,core-default.xml有73个属性,... 阅读全文
摘要:
nutch-site.xml在nutch2.2.1中,有两份配置文件:nutch-default.xml与nutch-site.xml。其中前者是nutch自带的默认属性,一般情况下不要修改。如果需要修改默认属性,可以在nutch-site.xml中增加一个同名的属性,并修改其值。nutch-sit... 阅读全文
摘要:
排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一:插... 阅读全文
摘要:
1、为什么需要Hadoop 目前,一块硬盘容量约为1TB,读取速度约为100M/S,因此完成一块硬盘的读取需时约2.5小时(写入时间更长)。若把数据放在同一硬盘上,且全部数据均需要同一个程序进行处理,此程序的处理时间将主要浪费在I/O时间上。 在过去几十年,硬盘的读取速度并未明显增长,而网络传输... 阅读全文
摘要:
一、前置条件1、操作系统准备(1)Linux可以用作开发平台及产品平台。(2)win32只可用作开发平台,且需要cygwin的支持。2、安装jdk 1.6或以上3、安装ssh,并配置免密码登录。$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ss... 阅读全文
摘要:
一、抓取流程概述1、nutch抓取流程当使用crawl命令进行抓取任务时,其基本流程步骤如下:(1)InjectorJob开始第一个迭代(2)GeneratorJob(3)FetcherJob(4)ParserJob(5)DbUpdaterJob(6)SolrIndexerJob开始第二个迭代(2)... 阅读全文
摘要:
1、在任务一开始运行,注入Url时即出现以下错误。InjectorJob: Injecting urlDir: urlsInjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.... 阅读全文
摘要:
javascipt是一门面向对象的编程语言。由于存在一些全局属性及全局函数,因此可以认为存在一个全局变量,这些全局属性及全局函数均是其属性或函数。在js核心中,并没有定义一个具体的全局变量,因此,js核心中的全局属性(三个:NaN)与全局函数(如eval())均可以直接调用。而在客户端js中,定义了... 阅读全文
摘要:
在javascript中,可以为某个元素指定事件,指定的方式有以下三种:1、在html中,使用onclick属性2、在javascript中,使用onclick属性3、在javascipt中,使用addEvenListener()方法三种方法的比较(1)在第二、三种方法中,可以向函数传入一个even... 阅读全文
摘要:
部分内容参考:http://www.aspbc.com/tech/showtech.asp?id=1256在开发的过程中,经常使用window.onload和body onload两种,很少使用document.onreadystatechange,但这次写了一个js,使用window.onload... 阅读全文
摘要:
Javascript程序使用的是事件驱动的设计模式,为一个元素添加事件监听函数,当这个元素的相应事件被触发那么其添加的事件监听函数就被调用:当上面的button被点击后,会弹出一个框显示“Button Click”.在javascript中添加事件监听函数有多种方法,比如:在html元素上[xhtm... 阅读全文
摘要:
1、设置id / class等属性用 setAttribute 设置一些常规属性如 id ,className 的时候经常不起作用,只能用 object.id = value 这样来设置news_item.id="news"+i;2、DOM的一个实用功能是几乎所有Document对象实现的搜索方法同... 阅读全文
摘要:
代码如下:Insert title here1、若将script放到head元素中,则加载脚本时,尚未加载div元素,此时会出现“document.getElementById(...) 为空或者不是对象”。2、以上代码在chrome中正常支行,输出结果为5,但在IE中输出结果为0.3、注意在js中... 阅读全文
摘要:
http://www.w3school.com.cn/xhtml/xhtml_structural_01.asp我们曾经为本节撰写的标题是:“XHTML : 简单的规则,容易的方针。”原因之一是,本节讨论的规则和方针是简单和容易的。原因之二是,一本简单和容易的 WEB 设计图书,就像超级市场的新式的... 阅读全文
摘要:
简单总结:1、JS是一门前端语言。2、Ajax是一门技术,它提供了异步更新的机制,使用客户端与服务器间交换数据而非整个页面文档,实现页面的局部更新。3、jQuery是一个框架,它对JS进行了封装,使其更方便使用。jQuery使得JS与Ajax的使用更方便详细情况:Actually only one ... 阅读全文
摘要:
一、Java Script1、由于Solr本身可以返回Json格式的结果,而JavaScript对于处理Json数据具有天然的优势,因此使用JavaScript实现Solr客户端是一个很好的选择。2、在之前,主要使用SolJS作为solr的客户端,目前主要使用ajax-solr,信息请见:https... 阅读全文
摘要:
一、SolrJ基础1、相关资料API:http://lucene.apache.org/solr/4_9_0/solr-solrj/apache_solr_ref_guide_4.9.pdf:Client APIs---Using SolrJhttp://wiki.apache.org/solr/S... 阅读全文
摘要:
转载:http://blog.csdn.net/awj3584/article/details/16963525Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在... 阅读全文
摘要:
转载自:http://www.cnblogs.com/huangfox/archive/2012/02/09/2344686.htmlsolr-searching过程分析(一)——searching过程粗略梳理下午看了一会solr的启动过程,往细的看相当繁琐。换个头绪先看看solr的searchin... 阅读全文
摘要:
需要修改2个文件:/etc/hosts/etc/sysconfig/network然后重启1、修改/etc/sysconfig/networkNETWORKING=yesHOSTNAME=*******2、修改/etc/hosts127.0.0.1 localhost localhost.local... 阅读全文
摘要:
1、开启云盾所有服务2、通过防火墙策略限制对外扫描行为请您根据您的服务器操作系统,下载对应的脚本运行,运行后您的防火墙策略会封禁对外发包的行为,确保您的主机不会再出现恶意发包的情况,为您进行后续数据备份操作提供足够的时间。Window2003的批处理文件下载地址:http://oss.aliyunc... 阅读全文
摘要:
1、关于默认搜索域If you are using the Lucene query parser, queries that don't specify a field name will use the defaultSearchField. The DisMax and Extended Di... 阅读全文
摘要:
一、关于Velocity的基本配置 在Solr中,可以以多种方式返回搜索结果,如单纯的文本回复(XML、JSON、CSV等),也可以返回velocity,js等格式。而VelocityResponseWriter就是用于将返回velocity类型文本,以便直接用于结果呈现。 在Solr提供的ex... 阅读全文
摘要:
转载自:http://www.cnblogs.com/petermsdn/archive/2011/05/06/2039178.htmlVelocity 是一个基于java 的模板引擎(template engine). 它可以让视图的设计者在web 页面中引用java 代码中定义的数据对象和命令。... 阅读全文
摘要:
1、RemoteSolrException:Expected mime type application/octet-stream but got text/html现象:SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".... 阅读全文
摘要:
一、向Solr提交索引的方式1、使用post.jar进行索引(1)创建文档xml文件 test4 testagain http://www.163.com (2)使用java -jar post.jar[root@jediael44 examp... 阅读全文
摘要:
1、安装Tomcat(1)下载并解压至/opt/tomcat中# cd /opt/jediael# tar -zxvf apache-tomcat-7.0.54.tar.gz # mv apache-tomcat-7.0.54 tomcat 将目录重命名为tomcat# lsapache-tom... 阅读全文
摘要:
参考:http://blog.csdn.net/ck_boss/article/details/27866117一、mysql配置1、安装mysqlyum install mysql-serverCentOS中已经默认安装,此步骤忽略。2、启动mysqlservice mysqld start3、登... 阅读全文