摘要: @Resource注解被用来激活一个命名资源(named resource)的依赖注入,在JavaEE应用程序中,该注解被典型地转换为绑定于JNDI context中的一个对象。 Spring确实支持使用@Resource通过JNDI lookup来解析对象,默认地,拥有与@Resource注解所提供名字相匹配的“bean name(bean名字)”的Spring管理对象会被注入。 在下面的例子中,Spring会向加了注解的setter方法传递bean名为“dataSource”的Spring管理对象的引用。@Resource(name="dataSource")publi 阅读全文
posted @ 2014-03-25 10:49 风未馨 阅读(2524) 评论(0) 推荐(0) 编辑
摘要: 关于lucene的RAMDirectory和FSDirectory的性能问题的困惑在lucene in Action书中说RAMDirectory的性能总是比FSDirectory优越(书中2.7.2章节) 并附了测试用例 我根据测试用例去实际测试了一下,结果是相反的 这让我很困惑,内存没道理比文件系统慢啊。。 附上执行结果: RAMDirectory Time: 500 ms FSDirectory Time: 266 ms 以下是我的代码(基本照搬书中例子,只更改了for循环写法和使用了2.9的推荐方法取代了老版本的方法)import java.io.File;import java.io 阅读全文
posted @ 2014-03-13 11:16 风未馨 阅读(1517) 评论(1) 推荐(0) 编辑
摘要: lucene中的IndexWriter.setMaxFieldLength()老版本的Lucene中,IndexWriter的maxFieldLength是指一个索引中的最大的Field个数。这个属性在Lucene2.9.0中是不可见的,对其的修改被放在相应的setMaxFieldLength(Int l)和getMaxFiedLength()中;当索引中的Field的个数等于这个属性时,新增的任何field都会被忽略,即使对己经存在相同的Field新增内容也是不可以的。附上一个测试类(Lucene in action)package test;import java.io.File;impo 阅读全文
posted @ 2014-03-13 11:07 风未馨 阅读(852) 评论(0) 推荐(0) 编辑
摘要: 1、新建两个文件夹htm和index,其中htm中存放被索引的文件,index文件中存放建立的索引文件。2、新建解析目录中所有文件的类,用来解析指定目录下的所有文件。import java.io.File;public class FileList {private static final String SEP="/";private static StringBuffer sb=new StringBuffer("");public static String[] getFiles(File file){//取得file目录中所有的文件if(file 阅读全文
posted @ 2014-03-13 10:18 风未馨 阅读(665) 评论(0) 推荐(0) 编辑
摘要: RawCluster:聚类中的类别单位RawCluster.getDocuments():获得该类的文档列表RawDocument:每个类的文档单位STC:后缀树表示法2008-11-13Carrot2的组建(components)的介绍:1. 输入(input):产生聚类文本的组建。Carrot2针对目前的几个主要搜索引擎(Yahoo:carrot2-input-yahooapi.jar, Google, MSN Search)和开源搜索引擎(lucene:carrot2-input-lucene.jar)以及XMLs接口 (such as RSS or OpenSearch:carrot2 阅读全文
posted @ 2014-03-13 10:01 风未馨 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 第一部分:Lucene建立索引Lucene建立索引主要有以下两步:第一步:建立索引器第二步:添加索引文件准备在f盘建立lucene文件夹,然后在lucene下建立文件夹test和index两个文件夹。在test文件夹下建立如下四个txt文件a.txt 内容:中华人民共和国b.txt 内容:人民共和国c.txt 内容:人民d.txt 内容:共和国这四个文件就是我们要建立索引的文件,Index文件夹作为索引结果输出文件夹准备工作完成以后,我们开始建立索引。第一步:建立索引器,如下IndexWriter writer = new IndexWriter("f:\\luce... 阅读全文
posted @ 2014-03-13 09:34 风未馨 阅读(469) 评论(0) 推荐(0) 编辑
摘要: Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。本文详细解读了Apache Lucene - Index File Formats(http://lucene.apache.org/java/2_9_0/fileformats.html) 这篇文章。一、基本概念下图就是Lucene生成 阅读全文
posted @ 2014-03-13 09:08 风未馨 阅读(1976) 评论(0) 推荐(0) 编辑
摘要: 模拟浏览器登陆的基本思路与做法 最近在新建的爬虫、自然语言处理群320349384中讨论模拟登陆的比较多,我接到的技术支持客户中关于这块的问题,尤其是共性的思路问题,非常突出,现简单总结如下,希望对这块感兴趣的人们少走弯路。 模拟登陆, 即指通过程序设计的方式去模拟人为操作浏览器去登陆相关站点的操作过程,从而达到人为操作可以看到的数据的目的。其技术模块总体分为两大块,即一、抓包分析,二、程序模拟实现 一、抓包分析 1) 抓包分析工具:各个浏览器有不同的搭配,看个人习惯了。 我比较推荐用IE9及以上+HttpWatch8.5版本及以上。IE9以上的IE Developer可以方便辅助做之后... 阅读全文
posted @ 2014-03-09 08:34 风未馨 阅读(2787) 评论(0) 推荐(0) 编辑
摘要: 一 概述:HttpWatch强大的网页数据分析工具.集成在Internet Explorer工具栏.包括网页摘要.Cookies管理.缓存管理.消息头发送/接受.字符查询.POST 数据和目录管理功能.报告输出 HttpWatch 是一款能够收集并显示页页深层信息的软件。它不用代理服务器或一些复杂的网络监控工具,就能够在显示网页同时显示网页请求和回应的日志信息。甚至可以显示浏览器缓存和IE之间的交换信息。集成在Internet Explorer工具栏。二 安装HttpWatch略过^_^三 基本功能介绍启动Httpwatch从IE的“查看”—“浏览器栏”—“HttpWatch”启动HttpWa 阅读全文
posted @ 2014-03-05 15:34 风未馨 阅读(1704) 评论(0) 推荐(0) 编辑
摘要: 我是只很菜很菜的小鸟。刚上班,有这个一个需求。要我抓取别的网站的数据。我根据用户密码登录一个网站成功后,生成一个cookie值。我已经获取到了。然后要带上这个cookie值进行下一页面的访问。问题就出在这里。不知道怎么带上cookie值进行访问。卡在这里了。不是说httpclient能自动管理cookie么?以前从没接触过这个httpclient和httpparser。如果我不访问该网站的下一页面,我能访问到别的网站。但是一访问该网站的下一页面时。控制台输出的信息html脚本里就显示你没有登录。。下面是我的源代码。躬请各位大师帮忙解决。刚注册的账号。没有多少分,也不知道怎么弄。请大家帮帮忙。. 阅读全文
posted @ 2014-03-05 11:44 风未馨 阅读(2771) 评论(1) 推荐(0) 编辑