2013 年 1月 29 日随笔档案 - 杨桃

2013年1月29日

摘要：最近没什么事情可做，于是就看了看Lucene源码，以往版本Lucene的各个功能都是合在一个jar 包的，最近发布4.0，4.1 就将各个功能都分开了首先对分词（分析）部分进行了学习说是分词，更准确的应该叫分析，主要指将域（Field）文本转换为最基本的索引表示单元 ——项（Term）的过程。这些操作包括：提取单词，去掉标点，将字母转换为小写，去除常用词（停用词），将单词还原为词干………… Token（单个词信息）和他所在域（Filed）结合后就是项——term 多个Term 组成了Field分词流程：在Lucene中，对分词主要依靠Analyzer类解析实现。Analyzer内部主要通阅读全文

posted @ 2013-01-29 14:43 杨桃阅读(1636) 评论(0) 推荐(0) 编辑

Jsoup抓取页面的小技巧

摘要：前面写了好多jsoup的例子现在写写小技巧吧（1）得到document 的方法,(有时候这个不一定能得到document，可以看前面介绍的两个方法中的另一个方法，也可以将post 方法改成get ——在try里) public static Document readUrlFist(String url) { Document doc = null; Connection conn = Jsoup.connect(url); conn .header( "User-Ag... 阅读全文

posted @ 2013-01-29 10:34 杨桃阅读(672) 评论(0) 推荐(0) 编辑

java处理a标签里没有根网址和没有http开头的小程序

摘要：在爬取网站的时候有时候链接没有网站开头，下面两个程序可以很好的解决这种问题orderString 是a 标签里的hreftitle 是网站例如www.baidu.com public static String addTitle(String orderString, String title) { String newString = orderString; if (orderString.indexOf(title.split("\\.")[1]) == -1) { newString = "http://" ... 阅读全文

posted @ 2013-01-29 09:49 杨桃阅读(426) 评论(0) 推荐(0) 编辑

杨桃

关注编程，在编程中成长 http://taotao-chong-zhi.taobao.com/

公告