wq920 - 博客园

2013年8月29日

Hadoop1.0.3集成eclipse开发

摘要：本文来自：http://www.ilablog.org/%E7%BC%96%E8%AF%91hadoop-eclipse%E6%8F%92%E4%BB%B6/本人由于工作原因目前没有亲自尝试，那位尝试如果出错可以将错误写在评论里，我们共同探讨。一、所需软件Windows 7旗舰版Eclipse 3.7.0AntCygwinhadoop-1.0.3二、Ant和Cygwin安装1、Ant安装（1）将Ant解压放在合适目录：比如D盘。（2）配置Ant环境变量：D:\Ant\apache-ant-1.8.4\bin（3）控制台中输入echo %PAHT% 使环境变量生效。（没必要重启）2、Cygwin 阅读全文

posted @ 2013-08-29 13:57 wq920 阅读(523) 评论(0) 推荐(0) 编辑

在Hadoop分布式文件系统的索引和搜索

摘要： FROM:http://www.drdobbs.com/parallel/indexing-and-searching-on-a-hadoop-distr/226300241?pgno=3在今天的信息饱和的世界，地理分布的数据，需要一种系统的巨大增长，有利于快速检索有意义的结果的解析。分布式数据的可搜索的索引去加速的过程很长的路要走。在这篇文章中，我演示了如何使用Lucene和Java的基本数据索引和搜索，如何使用RAM目录索引和搜索，如何创建居住在HDF的数据索引，以及如何搜索这些索引。由开发环境，Eclipse的Java 1.6的Lucene的2.4.0，3.4.2，和Hadoop 0.1 阅读全文

posted @ 2013-08-29 11:53 wq920 阅读(2331) 评论(0) 推荐(0) 编辑

Solr + Hadoop = Big Data Love

摘要： FROM:http://architects.dzone.com/articles/solr-hadoop-big-data-love许多人使用Hadoop的开源项目来处理大数据的大数据集，因为它是一个伟大的解决方案可扩展，可靠的数据处理工作流程。Hadoop是目前最流行的大数据处理系统，与企业使用数千台服务器上的数据存储和处理PB级的大规模集群。Nutch的开源网络爬虫项目于2006年出现以来，Hadoop已种植在各方面都可以想象-用户，开发相关的项目（又名“Hadoop生态系统”）。在大致相同的时间开始，Solr的开源项目已经成为地球上最广泛使用的搜索解决方案。Solr的包装API级阅读全文

posted @ 2013-08-29 11:20 wq920 阅读(2979) 评论(0) 推荐(0) 编辑

2013年8月24日

关于mapreduce过程中出现的错误：Too many fetch-failures

摘要： Reduce task启动后第一个阶段是shuffle，即向map端fetch数据。每次fetch都可能因为connect超时，read超时，checksum错误等原因而失败。Reduce task为每个map设置了一个计数器，用以记录fetch该map输出时失败的次数。当失败次数达到一定阈值时，会通知JobTracker fetch该map输出操作失败次数太多了，并打印如下log：Failed to fetch map-output from attempt_201105261254_102769_m_001802_0 even after MAX_FETCH_RETRIES_PER_MAP 阅读全文

posted @ 2013-08-24 19:37 wq920 阅读(2364) 评论(0) 推荐(0) 编辑

2013年8月22日

有关hadoop分布式配置详解

摘要： linux配置ssh无密码登录配置ssh无密码登录，先要安装openssh，如下：yum install openssh-clients准备两台linux服务器或虚拟机，设置两台linux的hosts为：1[root@hadoop1 ~]# vim /etc/hosts2192.168.1.110 hadoop13192.168.1.111 hadoop2再按照如下步骤：01[root@hadoop1 ~]# ssh-keygen -t rsa02Generating public/private rsa key pair.03Enter file in which to save the k 阅读全文

posted @ 2013-08-22 21:20 wq920 阅读(1233) 评论(0) 推荐(0) 编辑

Indri中的动态文档索引技术

摘要： Indri中的动态文档索引技术戴维译摘要： Indri 动态文档索引的实现技术，支持在更新索引的同时处理用户在线查询请求。文本搜索引擎曾被设计为针对固定的文档集合进行查询，对不少应用来说，这种机制工作得很好，然而对于诸于新闻，财经和桌面搜索而言，需要的是高效、经常性的更新索引。以往支持动态文档集合的研究主要围绕增量索引方法，增量系统通过往已有的索引中追加大的文档集合来优化索引性能，但是不允许在增量索引的同时处理用户查询。与以往的增量系统不同，Indri搜索引擎的最新版本支持动态文档集合，不需要通过加大文档集合大小来获取索引性能，同时Indri支持索引和查询的并发，允许用户在增量索引的同阅读全文

posted @ 2013-08-22 20:28 wq920 阅读(471) 评论(0) 推荐(0) 编辑

Indri查询命令及Java调用并保存结果

摘要：查询参数indexIndri索引库路径。在参数文件中像/path/to/repository这样指定，在命令行中像-index=/path/to/repository这样指定。该参数可以设置多次来组合多个索引库。server运行Indri的服务器主机名(IndriDaemon)。在参数文件中如hostname方式指定，在命令行中像-server=hostname这样来指定。主机名可以指定一个可选的商品号用来连接，用hostname:portnum这种形式。该参数可以指定多次来组合多个服务器。count整数值，设置给定查询返回的最大结果数。在参数文件中如number设置，在命令行中如-count 阅读全文

posted @ 2013-08-22 20:27 wq920 阅读(902) 评论(0) 推荐(0) 编辑

贝叶斯算法原理分析

摘要： Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。 Bayes方法的薄弱环节在于实际情况下，类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们，就要求样本足够大。另外，Bayes法要求表达文本的主题词相互独立，这样的条件在实际文本中一般很难满足，因此该方法往往在效果上难以达到理论上的最大值。 1.贝叶斯法则机器学习的任务：在给定训练数据D时，确定假设空间H中的最佳假设。最佳假设：一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概... 阅读全文

posted @ 2013-08-22 20:25 wq920 阅读(621) 评论(0) 推荐(0) 编辑

MySQL与Oracle主键Query性能测试结果

摘要：测试结果总结如下：1.按主键读：SQL形式：SELECT*FROMtableWHEREid=?。1.1.主键为数字。如果所有ID均不存在，纯比较SQL解析能力。MySQL解析SQL的速度约是Oracle的2倍。原因在于MySQL优化器代码简单，动态规划的深度限制为64层，能较好的控制解析SQL的时间。1.2.主键为数字。如果所有ID均存在，且完全随机分布。低并发（=32），落后Oracle一半左右。1.3.主键为数字。如果所有ID均存在，ID随机范围控制在一定范围。（ID在[minID,maxID]范围内）随着ID范围的缩小，实际访问的数据就越小，重复读到一条数据的概率增高，多次测试后，MyS 阅读全文

posted @ 2013-08-22 20:23 wq920 阅读(1208) 评论(0) 推荐(0) 编辑

K-meams文本聚类算法C++实现

摘要： FROM:http://www.cnblogs.com/finallyliuyu/archive/2010/09/03/1817348.html 1 头文件： 2 3 4 #ifndef _Preprocess_H 5 #define _Preprocess_H 6 #include 7 #include 8 #include 9 #include 10 #include 11 #include 12 #include 13 #include 14 #include 15 #include 16 #include 17 #include 18 #include"ict... 阅读全文

posted @ 2013-08-22 20:20 wq920 阅读(895) 评论(0) 推荐(0) 编辑

The-Most-Speial

wq920 做一个有思想的人...

公告