摘要: 最近没什么事情可做,于是就看了看Lucene源码,以往版本Lucene的各个功能都是合在一个jar 包的,最近发布4.0,4.1 就将各个功能都分开了首先对分词(分析)部分进行了学习说是分词,更准确的应该叫分析, 主要指将域(Field)文本转换为最基本的索引表示单元 ——项(Term) 的过程。这些操作包括:提取单词,去掉标点,将字母转换为小写,去除常用词(停用词),将单词还原为词干………… Token(单个词信息) 和他所在域(Filed)结合后就是项——term 多个Term 组成了Field分词流程:在Lucene中,对分词主要依靠Analyzer类解析实现。Analyzer内部主要通 阅读全文
posted @ 2013-01-29 14:43 杨桃 阅读(1628) 评论(0) 推荐(0) 编辑
摘要: 前面写了好多jsoup的例子现在写写小技巧吧(1) 得到document 的方法,(有时候这个不一定能得到document,可以看前面介绍的两个方法中的另一个方法,也可以将post 方法改成get ——在try里) public static Document readUrlFist(String url) { Document doc = null; Connection conn = Jsoup.connect(url); conn .header( "User-Ag... 阅读全文
posted @ 2013-01-29 10:34 杨桃 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 在爬取网站的时候有时候链接没有网站开头,下面两个程序可以很好的解决这种问题orderString 是a 标签里的hreftitle 是网站 例如www.baidu.com public static String addTitle(String orderString, String title) { String newString = orderString; if (orderString.indexOf(title.split("\\.")[1]) == -1) { newString = "http://" ... 阅读全文
posted @ 2013-01-29 09:49 杨桃 阅读(419) 评论(0) 推荐(0) 编辑