摘要: linux配置ssh无密码登录配置ssh无密码登录,先要安装openssh,如下:yum install openssh-clients准备两台linux服务器或虚拟机,设置两台linux的hosts为:1[root@hadoop1 ~]# vim /etc/hosts2192.168.1.110 hadoop13192.168.1.111 hadoop2再按照如下步骤:01[root@hadoop1 ~]# ssh-keygen -t rsa02Generating public/private rsa key pair.03Enter file in which to save the k 阅读全文
posted @ 2013-08-22 21:20 wq920 阅读(1190) 评论(0) 推荐(0) 编辑
摘要: Indri中的动态文档索引技术戴维 译摘要: Indri 动态文档索引的实现技术,支持在更新索引的同时处理用户在线查询请求。 文本搜索引擎曾被设计为针对固定的文档集合进行查询,对不少应用来说,这种机制工作得很好,然而对于诸于新闻,财经和桌面搜索而言,需要的是高效、经常性的更新索引。 以往支持动态文档集合的研究主要围绕增量索引方法,增量系统通过往已有的索引中追加大的文档集合来优化索引性能,但是不允许在增量索引的同时处理用户查询。 与以往的增量系统不同,Indri搜索引擎的最新版本支持动态文档集合,不需要通过加大文档集合大小来获取索引性能,同时Indri支持索引和查询的并发,允许用户在增量索引的同 阅读全文
posted @ 2013-08-22 20:28 wq920 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 查询参数indexIndri索引库路径。在参数文件中像/path/to/repository这样指定,在命令行中像-index=/path/to/repository这样指定。该参数可以设置多次来组合多个索引库。server运行Indri的服务器主机名(IndriDaemon)。在参数文件中如hostname方式指定,在命令行中像-server=hostname这样来指定。主机名可以指定一个可选的商品号用来连接,用hostname:portnum这种形式。该参数可以指定多次来组合多个服务器。count整数值,设置给定查询返回的最大结果数。在参数文件中如number设置,在命令行中如-count 阅读全文
posted @ 2013-08-22 20:27 wq920 阅读(893) 评论(0) 推荐(0) 编辑
摘要: Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。 1.贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概... 阅读全文
posted @ 2013-08-22 20:25 wq920 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 测试结果总结如下:1.按主键读:SQL形式:SELECT*FROMtableWHEREid=?。1.1.主键为数字。如果所有ID均不存在,纯比较SQL解析能力。MySQL解析SQL的速度约是Oracle的2倍。原因在于MySQL优化器代码简单,动态规划的深度限制为64层,能较好的控制解析SQL的时间。1.2.主键为数字。如果所有ID均存在,且完全随机分布。低并发(=32),落后Oracle一半左右。1.3.主键为数字。如果所有ID均存在,ID随机范围控制在一定范围。(ID在[minID,maxID]范围内)随着ID范围的缩小,实际访问的数据就越小,重复读到一条数据的概率增高,多次测试后,MyS 阅读全文
posted @ 2013-08-22 20:23 wq920 阅读(1199) 评论(0) 推荐(0) 编辑
摘要: FROM:http://www.cnblogs.com/finallyliuyu/archive/2010/09/03/1817348.html 1 头文件: 2 3 4 #ifndef _Preprocess_H 5 #define _Preprocess_H 6 #include 7 #include 8 #include 9 #include 10 #include 11 #include 12 #include 13 #include 14 #include 15 #include 16 #include 17 #include 18 #include"ict... 阅读全文
posted @ 2013-08-22 20:20 wq920 阅读(892) 评论(0) 推荐(0) 编辑
摘要: 1 package com.my.optics; 2 3 public class DataPoint { 4 private String name;//样本的名字 5 private double dimensioin[];//样本点的维度 6 private double coreDistance;//核心距离 7 private double reachableDistance;//可达距离 8 public DataPoint() { 9 } 10 public DataPoint(DataPoint e) { 11 this.name = e.name; 12... 阅读全文
posted @ 2013-08-22 20:14 wq920 阅读(741) 评论(0) 推荐(0) 编辑
摘要: 这段时间忙着为我们的爬虫程序做一个守护进程,想来想去还是用脚本比较好,所以用了点时间仔细的研究了一下,这里有一点点经验想分享给大家,也不能说是经验了,只能说是我写这个的时候所用到的知识: 1.tasklist 列出所有的进程,包括进程名称,进程的pid,属于哪一类的会话(0表示系统级的进程1表示用户级的进程)使用格式:Tasklist [/S system [/U username [/P [password]]]] [/M [module] | /SVC | /V] [/FI filter] [/FO format] [/NH]参数含义:/S system 指定连接到的远程系统。/U ... 阅读全文
posted @ 2013-08-22 20:11 wq920 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 本文是在我的另一个博客中copy过来的,感觉博客园比较适合写代码就迁过来了 好久都没有写过日志了,前两天去面试,看到面试题中有关于大数操作的问题,所以回来以后就总结了一下,供笔试着还有要参加acm的同学做一些参考。先说一下大数相加: 1 package com.my.lucene; 2 3 4 import java.math.BigInteger; 5 6 7 public class test { 8 public static void main(String[] args) { 9 String a = "15432321321223123231321"; Stri 阅读全文
posted @ 2013-08-22 20:03 wq920 阅读(239) 评论(0) 推荐(0) 编辑
摘要: from:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是由一个NameNode和若.. 阅读全文
posted @ 2013-08-22 19:29 wq920 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 因为java没有提供现成的函数去计算对象的内存空间,不过可以用大量产生某个对象然后计算平均值的方法近似获得该对象占用的内存。虽然这种方法不是很准,但是也在一定程度上计算出来了对象所占用的内存空间,下面有一个例子可以参考一下: 1 public class Test{ 2 long f1 = Runtime.getRuntime().freeMemory(); 3 for(int i=0;i<1000;i++) 4 { 5 MyObject t = new MyObject(); 6 } 7 ... 阅读全文
posted @ 2013-08-22 17:31 wq920 阅读(438) 评论(0) 推荐(0) 编辑