随笔分类 -  java

摘要:Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN] bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN] 参数说明: < 阅读全文
posted @ 2011-12-28 15:14 ljlxyf 阅读(326) 评论(0) 推荐(0) 编辑
摘要:Nutch作为一款刚刚诞生的开源Web搜索引擎,提供了除商业搜索引擎外的一种新的选择。个人、企业都可通过Nutch来构建适合于自身需要的搜索引擎平台,提供适合于自身的搜索服务,而不必完全被动接收商业搜索引擎的各种约束。Nutch 是基于Lucene的。Lucene为 Nutch 提供了文本索引和搜索的API。如果你不需要抓取数据的话,应该使用Lucene。常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这 种情况下,最好的方式是直接从数据库中取出数据并用Lucene API建立索引。Nutch 适用于你无法直接获取数据库中的数据网站,或者比较分散的数据源的情况下使用。Nutch 阅读全文
posted @ 2011-12-27 17:16 ljlxyf 阅读(771) 评论(1) 推荐(0) 编辑
摘要:nutch环境配置在windows系统上必须要安装【Cygwin】。cygwin是一个在windows平台上运行的unix模拟环境。一、安装jdkJdk版本为1.6, 下载地址:http://www.sun.com/download/安装路径:C:\Program Files\Java\jdk1.6.0_23\(安装路径不做硬性要求,可能由于版本不同路径有所区别,请注意该处)配置PATH环境变量 ;%JAVA_HOME%\bin;%TOMCAT_HOME%\bin配置JAVA_HOME环境变量 C:\Program Files\Java\jdk1.6.0_23配置JAVA_BIN环境变量 C: 阅读全文
posted @ 2011-11-16 11:02 ljlxyf 阅读(495) 评论(0) 推荐(0) 编辑
摘要:Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫: 能够以更高的带宽去站点爬。 主题爬虫: 集中于被选择的问题。 持续爬虫: 不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫: 对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫 爬行结果进行分析的。 Heritrix工作原理 Heritrix是一个爬虫框架,可加如入一些可互换的组件。它的执行是递归进行的,主要有以下几步:在预定的U... 阅读全文
posted @ 2011-11-15 11:06 ljlxyf 阅读(737) 评论(0) 推荐(0) 编辑
摘要:一、下载: 到www.sourceforge.net 网站搜索heritrix, 然后分别下载下来hheritrix-1.14.4-src.zip,heritrix-1.14.4.zip下载地址:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/ 二、配置 1. 解压 heritrix-1.14.4.zip ,假设解压到了c 盘根目录下并把解压后的文件夹命名为heritrix(http://www.my400800.cn )2. 进入c:/heritrix/. 阅读全文
posted @ 2011-11-04 11:45 ljlxyf 阅读(1019) 评论(0) 推荐(0) 编辑
摘要:这段是时间用java swing做了一个小程序,但是运行一点时间后就会出现内存溢出错误,下面把解决过程和大家分享一下:首先下载 Oracle JRockit JDK,下载地址如下:http://www.oracle.com/technetwork/middleware/jrockit/downloads/index.html选择适合自己操作系统的文件下载。安装 Oracle JRockit JDK后运行,运行界面如下:在左侧菜单出找到自己要监控的程序,选择启动Memleak打开如下界面可以看到自己程序每种类型的数据所占内存数量,可以在对应的分类上单击右键,选择该类型数据的监控显示模式,如下图: 阅读全文
posted @ 2011-04-10 18:00 ljlxyf 阅读(338) 评论(0) 推荐(0) 编辑
摘要:FrameViewzView = new FrameView(); //swing最大化处理 zView.getFrame().setSize(Toolkit.getDefaultToolkit().getScreenSize()); zView.getFrame().setLocation(0, 0); show(zView); 阅读全文
posted @ 2011-03-30 08:51 ljlxyf 阅读(396) 评论(0) 推荐(0) 编辑
摘要:/** To change this template, choose Tools | Templates* and open the template in the editor.*/import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;import java.util.Properties;/****网页抓 阅读全文
posted @ 2011-03-11 09:41 ljlxyf 阅读(1653) 评论(0) 推荐(0) 编辑
摘要:在windows环境下可以用下面两种方法使窗口显示windows风格窗口! UIManager.setLookAndFeel(UIManager.getSystemLookAndFeelClassName()); UIManager.setLookAndFeel("com.sun.java.swing.plaf.windows.WindowsLookAndFeel"); public static void main(String[] args) { try { UIManager.setLookAndFeel(UIManager.getSystemLookAndFeelC 阅读全文
posted @ 2011-03-02 15:53 ljlxyf 阅读(1854) 评论(1) 推荐(1) 编辑
摘要:上一篇文章【java swing 内置浏览器打开网页显示flash图表-swt Browser应用】讲解的如何在java中打开网站,但是,在实际开发中右遇到了一个问题就是如何用程序改变已经打开的网页地址,下面把自己解决问题的方法讲解一下。首先我在程序中直接调用 Browser对象的setUrl方法,代码如下:browser.setUrl("http://www.y400800.cn");程序会抛出如下异常:Exception occurred during event dispatching:org.eclipse.swt.SWTException: Invalid thr 阅读全文
posted @ 2011-02-28 17:27 ljlxyf 阅读(1181) 评论(0) 推荐(0) 编辑
摘要:今天在网上找了好久如何用在java swing打开网页,从而实现显示网页图表的效果,功夫不负有心人,终于搞定了,下面把所用的类和swt.jar整理了一下,方便有需要的朋友使用。用到的swt.jar下载调用网页的Browser要结合现有的java控件使用,一下是结合panel定义的类(SWTPane.java): /* * To change this template, choose Tools | Templates * and open the template in the editor. */ package desktopapplicationmenu.comm; import ja 阅读全文
posted @ 2011-02-25 16:48 ljlxyf 阅读(2094) 评论(0) 推荐(0) 编辑
摘要:用java swing 中的jTextPane实现局部文本改色添加删除线等操作,以下是执行图片:实现代码如下:/** To change this template, choose Tools | Templates* and open the template in the editor.*//** NewJFrame.java** Created on 2011-2-21, 9:04:46*/package desktopapplicationmenu;import java.awt.Color;import java.util.logging.Level;import java.util 阅读全文
posted @ 2011-02-22 16:05 ljlxyf 阅读(1188) 评论(0) 推荐(0) 编辑
摘要:本文主要记录怎么给代码编辑器实际语法高亮显示的功能,先来张效果图吧: 当JEditorPane被创建时,它会把createDefaultEditorKit()方法(javax.swing.text.EditorKit的子类对象)的返回值作为默认的编辑器工具包,然后将文本的编辑与显示工作交给这个工具包。其原型为:Java代码 protectedEditorKitcreateDefaultEditorKit(){returnnewPlainEditorKit();} 这个方法默认是返回一个PlainEditorKit对象,也就是一个纯文本的编辑器工具包,所以JEditorPane默认并没有格式化与 阅读全文
posted @ 2011-02-21 16:59 ljlxyf 阅读(1442) 评论(0) 推荐(0) 编辑
摘要:synchronized 关键字,它包括两种用法:synchronized 方法和 synchronized 块。  1. synchronized 方法:通过在方法声明中加入 synchronized关键字来声明 synchronized 方法。如:  public synchronized void accessVal(int newVal);  synchronized 方法控制对类成员变量的访问:每个类实例对应一把锁,每个 synchronized 方法都必须获得调用该方法的类实例的锁方能执行,否则所属线程阻塞,方法一旦执行,就独占该锁,直到从该方法返回时才将锁释放,此后被阻塞的线程方 阅读全文
posted @ 2011-02-11 16:50 ljlxyf 阅读(291) 评论(0) 推荐(0) 编辑
摘要:Java语言的关键字,当它用来修饰一个方法或者一个代码块的时候,能够保证在同一时刻最多只有一个线程执行该段代码。 一、当两个并发线程访问同一个对象object中的这个synchronized(this)同步代码块时,一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。 二、然而,当一个线程访问object的一个synchronized(this)同步代码块时,另一个线程仍然可以访问该object中的非synchronized(this)同步代码块。 三、尤其关键的是,当一个线程访问object的一个synchronized(this)同步代码块时, 阅读全文
posted @ 2011-02-11 16:46 ljlxyf 阅读(289) 评论(0) 推荐(0) 编辑
摘要:最近用到Java动态生成背景透明的图片功能,从gif和png中选择了png格式,自动添加链接地址:http://www.my400800.cn 去网站上的图片中。现把搜索结果总结如下:1. 生成png图片int width = 400;int height = 300;// 创建BufferedImage对象BufferedImage image = new BufferedImage(width, height, BufferedImage.TYPE_INT_RGB);// 获取Graphics2DGraphics2D g2d = image.createGraphics();// 画图g2 阅读全文
posted @ 2011-01-28 16:20 ljlxyf 阅读(1105) 评论(0) 推荐(0) 编辑
摘要:首页定义了一个公用Model类,代码如下:/** To change this template, choose Tools | Templates* and open the template in the editor.*/package TableModel;import java.sql.ResultSet;import java.util.LinkedList;import javax.swing.table.AbstractTableModel;import zhinengkaiguanjiankong.comm.LoggerUtil;/***数据库和JTable数据绑定记录数据存 阅读全文
posted @ 2011-01-20 15:17 ljlxyf 阅读(1376) 评论(0) 推荐(0) 编辑
摘要:/** To change this template, choose Tools | Templates* and open the template in the editor.*/package comm.SwingComm;import javax.swing.JTable;import javax.swing.table.TableColumn;/***JTable 控件公共操纵类* @author http://www.my400800.cn*/public class JTableComm { /** * 隐藏指定JTable的指定列 * @param table 指定JTabl 阅读全文
posted @ 2011-01-19 16:58 ljlxyf 阅读(1302) 评论(0) 推荐(0) 编辑
摘要:ava 不行.net一项可以直接设定回车按钮时的默认执行按钮,经过在网上查找主要有以下两个方案:一、这个也是最简单的方法,一行代码搞定this.getRootPane().setDefaultButton(jbtn_change);其中 jbtn_change 就是在画面按下回车键是需要执行的按钮对象。二、这个方法比较麻烦,但是比较灵活。其中原理就是在每个输入框上添加键盘输入监控事件,代码如下: jpwd_newPWD.addKeyListener(new java.awt.event.KeyAdapter() { public void keyPressed(KeyEvent e) { in 阅读全文
posted @ 2011-01-13 16:54 ljlxyf 阅读(768) 评论(0) 推荐(0) 编辑
摘要:下面是asp.net,php,jsp等语言在输出utf-8是需要在输出开始添加三个字节的内容,不让输出的文件会有一定的问题,希望对大家有所帮助。Using ASP.NET C# Response.ContentType="text/xml; characterset=utf-8" ; Response.BinaryWrite( new byte[]{0xEF,0xBB,0xBF} ); // Now write your XML data to output stream http://www.my400800.cn Using ASP.NET VB Response.ContentType= 阅读全文
posted @ 2010-12-17 15:56 ljlxyf 阅读(420) 评论(0) 推荐(0) 编辑