jediael - 博客园

改变HTML中超链接的显示样式

2014-08-27 10:11 by jediael, 218 阅读, 0 推荐, 收藏,

摘要：更详细的内容请参考：http://www.w3school.com.cn/tags/tag_a.aspHTML中的代码如下：可以通过以下方式来改变其默认的显示样式：.news_title { font: normal 18px/28px "Microsoft YaHei"; font-s... 阅读全文

0 Comment

【Nutch2.2.1源代码分析之5】索引的基本流程

2014-08-25 14:18 by jediael, 179 阅读, 0 推荐, 收藏,

摘要：一、各个主要类之间的关系SolrIndexerJob extends IndexerJob1、IndexerJob：主要完成2、SolrIndexerJob：主要完成3、IndexUtil：主要只有一个方法public NutchDocument index(String key, WebPage ... 阅读全文

0 Comment

【Nutch2.2.1源代码分析之4】Nutch加载配置文件的方法

2014-08-22 21:57 by jediael, 165 阅读, 0 推荐, 收藏,

摘要：小结：（1）在nutch中，一般通过ToolRunner来运行hadoop job，此方法可以方便的通过ToolRunner.run(Configuration conf,Tool tool,String[] args)来加载配置文件。（2）conf参数会通过NutchConfiguration.c... 阅读全文

0 Comment

java生成UUID通用唯一识别码 (Universally Unique Identifier)

2014-08-22 16:09 by jediael, 325 阅读, 0 推荐, 收藏,

摘要：转自：http://blog.csdn.net/carefree31441/article/details/3998553UUID含义是通用唯一识别码 (Universally Unique Identifier)，这是一个软件建构的标准，也是被开源软件基金会 (Open Software Fou... 阅读全文

0 Comment

使用ToolRunner运行Hadoop程序基本原理分析

2014-08-22 11:03 by jediael, 402 阅读, 0 推荐, 收藏,

摘要：为了简化命令行方式运行作业，Hadoop自带了一些辅助类。GenericOptionsParser是一个类，用来解释常用的Hadoop命令行选项，并根据需要，为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser，更方便的方式是：实现Tool接口，... 阅读全文

0 Comment

Hadoop入门经典:WordCount

2014-08-20 14:43 by jediael, 236 阅读, 0 推荐, 收藏,

摘要：以下程序在hadoop1.2.1上测试成功。本例先将源代码呈现，然后详细说明执行步骤，最后对源代码及执行过程进行分析。一、源代码package org.jediael.hadoopdemo.wordcount;import java.io.IOException;import java.util.S... 阅读全文

0 Comment

Hadoop配置文件

2014-08-19 12:48 by jediael, 176 阅读, 0 推荐, 收藏,

摘要：部分内容参考：http://www.linuxqq.net/archives/964.html Hadoop有三个重要的配置文件：core-site.xml,hdfs-site.xml,mapred-site.xml，但这三个文件默认情况下均为空，其默认值保存在core-default.xml,... 阅读全文

0 Comment

【Nutch2.2.1基础教程之3】Nutch2.2.1配置文件

2014-08-18 16:33 by jediael, 265 阅读, 0 推荐, 收藏,

摘要：nutch-site.xml在nutch2.2.1中，有两份配置文件：nutch-default.xml与nutch-site.xml。其中前者是nutch自带的默认属性，一般情况下不要修改。如果需要修改默认属性，可以在nutch-site.xml中增加一个同名的属性，并修改其值。nutch-sit... 阅读全文

0 Comment

8大排序算法图文讲解

2014-08-18 15:36 by jediael, 152 阅读, 0 推荐, 收藏,

摘要：排序算法可以分为内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一：插... 阅读全文

0 Comment

Hadoop基本原理之一：MapReduce

2014-08-17 19:26 by jediael, 174 阅读, 0 推荐, 收藏,

摘要：1、为什么需要Hadoop 目前，一块硬盘容量约为1TB，读取速度约为100M/S，因此完成一块硬盘的读取需时约2.5小时（写入时间更长）。若把数据放在同一硬盘上，且全部数据均需要同一个程序进行处理，此程序的处理时间将主要浪费在I/O时间上。在过去几十年，硬盘的读取速度并未明显增长，而网络传输... 阅读全文

0 Comment

About