杨桃 - 博客园

2013年2月1日

摘要：简单的建立索引和查询索引并不难，关键在于他的二次开发，让他适合你自己的需求既然要二次开发就必须查看源码首先看看索引过程中的核心类吧：IndexWriter 这个是核心组件，建立和打开索引，以及向文档中添加、删除或更新被索引文档的信息。Directory 描述了Lucene索引的存放位置，他是一个抽象类，一般都用FSDirectory.open（）,Analyzer IndexWriter 必须指定一个分词器（分析器），Document 代表了一些域的集合，他表示了每个所要保存的单个文本Field (4.0 以后就不是Field 了， LongField， TextField ，String. 阅读全文

posted @ 2013-02-01 14:17 杨桃阅读(3404) 评论(1) 推荐(0)

2013年1月29日

Lucene学习二次开发之——分词开发流程

摘要：最近没什么事情可做，于是就看了看Lucene源码，以往版本Lucene的各个功能都是合在一个jar 包的，最近发布4.0，4.1 就将各个功能都分开了首先对分词（分析）部分进行了学习说是分词，更准确的应该叫分析，主要指将域（Field）文本转换为最基本的索引表示单元 ——项（Term）的过程。这些操作包括：提取单词，去掉标点，将字母转换为小写，去除常用词（停用词），将单词还原为词干………… Token（单个词信息）和他所在域（Filed）结合后就是项——term 多个Term 组成了Field分词流程：在Lucene中，对分词主要依靠Analyzer类解析实现。Analyzer内部主要通阅读全文

posted @ 2013-01-29 14:43 杨桃阅读(1662) 评论(0) 推荐(0)

Jsoup抓取页面的小技巧

摘要：前面写了好多jsoup的例子现在写写小技巧吧（1）得到document 的方法,(有时候这个不一定能得到document，可以看前面介绍的两个方法中的另一个方法，也可以将post 方法改成get ——在try里) public static Document readUrlFist(String url) { Document doc = null; Connection conn = Jsoup.connect(url); conn .header( "User-Ag... 阅读全文

posted @ 2013-01-29 10:34 杨桃阅读(682) 评论(0) 推荐(0)

java处理a标签里没有根网址和没有http开头的小程序

摘要：在爬取网站的时候有时候链接没有网站开头，下面两个程序可以很好的解决这种问题orderString 是a 标签里的hreftitle 是网站例如www.baidu.com public static String addTitle(String orderString, String title) { String newString = orderString; if (orderString.indexOf(title.split("\\.")[1]) == -1) { newString = "http://" ... 阅读全文

posted @ 2013-01-29 09:49 杨桃阅读(440) 评论(0) 推荐(0)

2013年1月25日

修改Imdict做的一个简单分词器

摘要：最近想到给分词加点扩展，于是将以前的代码找出来写了一个分词器这个分词器可以对现在将代码贴出来：（1）搜索词进行扩展（这个需要依赖一个近义词词库，但网上找了好久，没有适合的，只有小学生的成语近义词）（2）找出地址（类似的也可以找出人名，歌名。。。，这个也需要一个词库）（3）将搜索结果变为汉语拼音（这个依赖了pingyin4j）该分词器以词典为主，如果你词典里有你需要的词，那么他就可以分出来，测试结果：例句：分词爱琪美我该分词器以词典为主，如果你词典里有你需要的词，那么他就可以分出来北京海淀火锅普通分开：分词爱琪美我该分词器以词典为主如果你词典里有你需阅读全文

posted @ 2013-01-25 11:25 杨桃阅读(295) 评论(0) 推荐(0)

2013年1月23日

java 对图片进行切割，灰度化，切割操作

摘要：有时候项目中会对图片进行操作，像切图啦，二值化啦，灰度啦。。在验证码识别的时候很有用现在将java对图片操作的部分方法写下来不管图片如何操作，关键是在new BufferImage时候的 TYPEBufferedImage.TYPE_BYTE_GRAY 是灰度化BufferedImage.TYPE_BYTE_BINARY 是二值化BufferedImage.TYPE_INT_ARGB ........详细参数介绍如下：（1）将地址转换为BufferImagepublic static BufferedImage console(String imgUrl) { Buffered... 阅读全文

posted @ 2013-01-23 16:15 杨桃阅读(4747) 评论(0) 推荐(1)

2013年1月22日

HtmlUnit的学习笔记

摘要：官方网址：http://htmlunit.sourceforge.net/有时候你需要模拟浏览器，HtmlUnit 就是个不错的选择像网页中js 中的内容，如果你想用爬虫爬取的话，用Jsoup 就不怎么行了，但是HtmlUnit 就是个不错的选择(1) HtmlUnit模拟表单提交下面的代码是模拟在百度里搜索 "root" 得到的page2 就是百度搜索"root" 的结果package com.xinsearch;import java.io.IOException;import java.net.MalformedURLException;imp 阅读全文

posted @ 2013-01-22 18:13 杨桃阅读(3433) 评论(0) 推荐(0)

pingyin4j 实现汉子转换为拼音

摘要： pingyin4j的jar 包下载地址http://sourceforge.net/projects/pinyin4j/files/该jar包的功能是将一个汉字转换为对应的拼音，在搜索的时候如果根据汉子得到拼音的时候，这个工具就是个不错的选择先给个测试代码：package com.pinyin;import net.sourceforge.pinyin4j.PinyinHelper;import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;import net.sourceforge.pinyin4j.format.Hanyu 阅读全文

posted @ 2013-01-22 11:53 杨桃阅读(1025) 评论(0) 推荐(0)

2013年1月4日

京东商城(360Buy)价格识别 java版

摘要：上一篇介绍到利用Jsoup抓取各个电商网站的信息不过有时候会遇到价格是图片的问题这时候你只能得到一张图片了如果有个能把图片解析出来那该多爽啊去百度一搜“京东(360Buy)价格识别” 还真有猪八戒上有人还发布任务了，不过那都是老早以前的了网上有好多版本，我自己也做了一个java版的识别率 99.9%我们相信java的强大，不过怕涉及到侵权问题，源码我就不贴了需要学习的可以留邮箱，我发给你这里我只讲思路（1）首先你的会切图用java 下面给个小例子：这个是个切图的方法，x,y 是原来图片要切割的起始坐标， wight 和hight 是要切割的宽和高， img 是原图的流这是一个队Png 阅读全文

posted @ 2013-01-04 16:05 杨桃阅读(1971) 评论(11) 推荐(0)

Jsoup 抓取购物网站之（etao）—淘 ——数据来源猜想

摘要：有时候我们想了解各大电商的商品信息就得用爬虫抓取出必要的商品信息就像etao 一样，一淘的那么多信息 tmall ，淘宝。像知我药妆，买好，米奇等美妆网站或者是团购网站聚美，乐峰，天天香舍臻品。。。。他们不可能主动给etao，他怎么来的呢，下面给出一种方法这只是我个人猜想爬虫工具很多，我个人喜欢用Jsoup下面我把例子贴出来供有兴趣的人参考Jsoup 必须的包，数据库连接包得导入获得Document的例子：public static Document readUrlFist(String url) { Document doc = null; Con... 阅读全文

posted @ 2013-01-04 10:47 杨桃阅读(1349) 评论(0) 推荐(0)

杨桃

关注编程，在编程中成长 http://taotao-chong-zhi.taobao.com/

公告