2012年3月6日

摘要: solr source code 1 org.apache.solr.common 基本的类对象2 org.apache.solr.common.params 存取参数的类,按照参数类型不同分为很多的类, (1) AnalysisParams 下有map,ModifiableSolrParams(LinkedHashMap),RequiredSolrParams,SolrQuery (2) CommonParams等3 org.apache.solr.analysis (1) tokenizerFactory(BaseTokenizerFactory)可以按照字数(NGramTokenizer 阅读全文
posted @ 2012-03-06 16:41 剑迅 阅读(747) 评论(0) 推荐(0) 编辑

2012年3月1日

摘要: solr1 drill data by random,eg.&random_123solrQuery.addSortField("random_"+rand.nextInt(1000),SolrQuery.ORDER.desc);2 search id not equal to 222eg.-id:2223 deleteById(List<String> ids) in solrj we should delete anything by idAs much as possible,using deleteByQuery function may occ 阅读全文
posted @ 2012-03-01 14:10 剑迅 阅读(216) 评论(0) 推荐(0) 编辑

2012年2月18日

摘要: 单点登录1 可以使用一些现有开源的SSO服务器2 在多个项目间使用统一的加解密,在项目之间传递ticket,然后在过滤器中判断,通过则将相关值保存至session读写分离最好是使用aop编程吧,在spring中配置一下,再简单写点代码就OK了大数据量的处理注意点1 需要在写之前读的,可以先全部读出来,然后再一次写入,不要读写读写的重复循环2 都说用基于jdbc的PreparedStatement和Batch来实现一次N条数据的插入,但使用时发现确实需要将session和batch的缓存及参数定时清理才会好些Connection conn=session.connection();conn.se 阅读全文
posted @ 2012-02-18 17:11 剑迅 阅读(326) 评论(0) 推荐(0) 编辑

2011年11月11日

摘要: 1We need to importstruts2-spring-plugin-2.1.8.1.jar for combiningstruts and spring ,importmysql-connector-java-5.1.18-bin.jar for hibernate and delete cglib.jar forcom.springsource.net.sf.cglib-2.2.0.jar whichcontains cglib.jar and asm.jar 阅读全文
posted @ 2011-11-11 10:09 剑迅 阅读(215) 评论(0) 推荐(0) 编辑

2011年10月9日

摘要: Steps are as follows:1 cp all nutch conf(only one single nutch instance should be setup) to hadoop conf2 put urls and /nutch-1.3.job(jar) to cloud3 use the crawl command with reference files on the cloud 阅读全文
posted @ 2011-10-09 17:47 剑迅 阅读(181) 评论(0) 推荐(0) 编辑

2011年8月11日

摘要: 1 Nutch common is 'bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN] ', nutch will generate segment foreach depth,and topN means each layer will collect topN urls. Generally each layer has one single segment,it depends onmaxNumSegments(1 is the default value) in Generat 阅读全文
posted @ 2011-08-11 17:41 剑迅 阅读(128) 评论(0) 推荐(0) 编辑

2011年7月29日

摘要: hadoop-0.20.2hbase-0.20.6hive-0.6.0-binpig-0.7.0zookeeper-3.2.2nutch-1.3lucene-3.1.0apache-solr-3.1.0 阅读全文
posted @ 2011-07-29 16:38 剑迅 阅读(131) 评论(0) 推荐(0) 编辑

2011年7月25日

摘要: 1 setup path cannot exist blank2 remove environment variable of individual tomcat,because I downloaded geronimo zip files binded with tomcat3 change some port number4 replace localhost with my hostname , then we may access geronimo web console with ipaddress5 to develop with geronimo eclips plugin,s 阅读全文
posted @ 2011-07-25 17:00 剑迅 阅读(190) 评论(0) 推荐(0) 编辑

2011年6月28日

摘要: 1 eclipse Installed JREs should use jdk not jre2 when renew a server,we should choose the jdk for jres3 if we want to access apache root page,we should double-click the server,choose "takes control of Tomcat" in the "Server Locations" part and set Deploy path with "webapps&q 阅读全文
posted @ 2011-06-28 12:01 剑迅 阅读(360) 评论(0) 推荐(0) 编辑

2011年4月27日

摘要: 1 nutch的所有应该小写2 文件名不能有括号3js 未结束的字符串常量,连接字符串时不能以"/"结尾4 js dictionary应该用() 取值,a = (new VBArray(d.Keys())).toArray();取keys5 window.open the second paramcannot be decimal,may like w336 replaceAll在linux和windows环境中针对/r/n处理结果是不同的,可以分开replace或者正则replace7 ssh不同的项目action乱窜,原因一般是各个项目的package名字相同所致 阅读全文
posted @ 2011-04-27 11:20 剑迅 阅读(167) 评论(0) 推荐(0) 编辑