上一页 1 ··· 6 7 8 9 10 11 下一页
摘要: 本文来自:http://www.ilablog.org/%E7%BC%96%E8%AF%91hadoop-eclipse%E6%8F%92%E4%BB%B6/本人由于工作原因目前没有亲自尝试,那位尝试如果出错可以将错误写在评论里,我们共同探讨。一、所需软件Windows 7旗舰版Eclipse 3.7.0AntCygwinhadoop-1.0.3二、Ant和Cygwin安装1、Ant安装(1)将Ant解压放在合适目录:比如D盘。(2)配置Ant环境变量:D:\Ant\apache-ant-1.8.4\bin(3)控制台中输入echo %PAHT% 使环境变量生效。(没必要重启)2、Cygwin 阅读全文
posted @ 2013-08-29 13:57 wq920 阅读(523) 评论(0) 推荐(0) 编辑
摘要: FROM:http://www.drdobbs.com/parallel/indexing-and-searching-on-a-hadoop-distr/226300241?pgno=3在今天的信息饱和的世界,地理分布的数据,需要一种系统的巨大增长,有利于快速检索有意义的结果的解析。分布式数据的可搜索的索引去加速的过程很长的路要走。在这篇文章中,我演示了如何使用Lucene和Java的基本数据索引和搜索,如何使用RAM目录索引和搜索,如何创建居住在HDF的数据索引,以及如何搜索这些索引。由开发环境,Eclipse的Java 1.6的Lucene的2.4.0,3.4.2,和Hadoop 0.1 阅读全文
posted @ 2013-08-29 11:53 wq920 阅读(2331) 评论(0) 推荐(0) 编辑
摘要: FROM:http://architects.dzone.com/articles/solr-hadoop-big-data-love许多人使用Hadoop的开源项目来处理大数据的大数据集,因为它是一个伟大的解决方案可扩展,可靠的数据处理工作流程。Hadoop是目前最流行 ​​的大数据处理系统,与企业使用数千台服务器上的数据存储和处理PB级的大规模集群。Nutch的开源网络爬虫项目于2006年出现以来,Hadoop已种植在各方面都可以想象-用户,开发相关的项目(又名“Hadoop生态系统”)。在大致相同的时间开始,Solr的开源项目已经成为地球上最广泛使用的搜索解决方案。Solr的包装API级 阅读全文
posted @ 2013-08-29 11:20 wq920 阅读(2979) 评论(0) 推荐(0) 编辑
摘要: Reduce task启动后第一个阶段是shuffle,即向map端fetch数据。每次fetch都可能因为connect超时,read超时,checksum错误等原因而失败。Reduce task为每个map设置了一个计数器,用以记录fetch该map输出时失败的次数。当失败次数达到一定阈值时,会通知JobTracker fetch该map输出操作失败次数太多了,并打印如下log:Failed to fetch map-output from attempt_201105261254_102769_m_001802_0 even after MAX_FETCH_RETRIES_PER_MAP 阅读全文
posted @ 2013-08-24 19:37 wq920 阅读(2364) 评论(0) 推荐(0) 编辑
摘要: linux配置ssh无密码登录配置ssh无密码登录,先要安装openssh,如下:yum install openssh-clients准备两台linux服务器或虚拟机,设置两台linux的hosts为:1[root@hadoop1 ~]# vim /etc/hosts2192.168.1.110 hadoop13192.168.1.111 hadoop2再按照如下步骤:01[root@hadoop1 ~]# ssh-keygen -t rsa02Generating public/private rsa key pair.03Enter file in which to save the k 阅读全文
posted @ 2013-08-22 21:20 wq920 阅读(1233) 评论(0) 推荐(0) 编辑
摘要: Indri中的动态文档索引技术戴维 译摘要: Indri 动态文档索引的实现技术,支持在更新索引的同时处理用户在线查询请求。 文本搜索引擎曾被设计为针对固定的文档集合进行查询,对不少应用来说,这种机制工作得很好,然而对于诸于新闻,财经和桌面搜索而言,需要的是高效、经常性的更新索引。 以往支持动态文档集合的研究主要围绕增量索引方法,增量系统通过往已有的索引中追加大的文档集合来优化索引性能,但是不允许在增量索引的同时处理用户查询。 与以往的增量系统不同,Indri搜索引擎的最新版本支持动态文档集合,不需要通过加大文档集合大小来获取索引性能,同时Indri支持索引和查询的并发,允许用户在增量索引的同 阅读全文
posted @ 2013-08-22 20:28 wq920 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 查询参数indexIndri索引库路径。在参数文件中像/path/to/repository这样指定,在命令行中像-index=/path/to/repository这样指定。该参数可以设置多次来组合多个索引库。server运行Indri的服务器主机名(IndriDaemon)。在参数文件中如hostname方式指定,在命令行中像-server=hostname这样来指定。主机名可以指定一个可选的商品号用来连接,用hostname:portnum这种形式。该参数可以指定多次来组合多个服务器。count整数值,设置给定查询返回的最大结果数。在参数文件中如number设置,在命令行中如-count 阅读全文
posted @ 2013-08-22 20:27 wq920 阅读(902) 评论(0) 推荐(0) 编辑
摘要: Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。 1.贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概... 阅读全文
posted @ 2013-08-22 20:25 wq920 阅读(621) 评论(0) 推荐(0) 编辑
摘要: 测试结果总结如下:1.按主键读:SQL形式:SELECT*FROMtableWHEREid=?。1.1.主键为数字。如果所有ID均不存在,纯比较SQL解析能力。MySQL解析SQL的速度约是Oracle的2倍。原因在于MySQL优化器代码简单,动态规划的深度限制为64层,能较好的控制解析SQL的时间。1.2.主键为数字。如果所有ID均存在,且完全随机分布。低并发(=32),落后Oracle一半左右。1.3.主键为数字。如果所有ID均存在,ID随机范围控制在一定范围。(ID在[minID,maxID]范围内)随着ID范围的缩小,实际访问的数据就越小,重复读到一条数据的概率增高,多次测试后,MyS 阅读全文
posted @ 2013-08-22 20:23 wq920 阅读(1208) 评论(0) 推荐(0) 编辑
摘要: FROM:http://www.cnblogs.com/finallyliuyu/archive/2010/09/03/1817348.html 1 头文件: 2 3 4 #ifndef _Preprocess_H 5 #define _Preprocess_H 6 #include 7 #include 8 #include 9 #include 10 #include 11 #include 12 #include 13 #include 14 #include 15 #include 16 #include 17 #include 18 #include"ict... 阅读全文
posted @ 2013-08-22 20:20 wq920 阅读(895) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 下一页