如何以Java实现网页截图技术 - cping

公告

如何以Java实现网页截图技术

今天看到某网友关于“如何以Java实现网页截图技术”的咨询帖，由于出现该咨询的地点非常不适合较长回复，故以博文形式回答。

事实上，如果您想以Java实现网页截图，也就是“输入一段网址，几秒钟过后就能截取一张网页缩略图”的效果。那么，您至少有3种方式可以选择。

1、最直接的方式——使用Robot

方法详解：该方法利用Robat提供的强大桌面操作能力，硬性调用浏览器打开指定网页，并将网页信息保存到本地。

优势：简单易用，不需要任何第三方插件。

缺点：不能同时处理大量数据，技术含量过低，属于应急型技巧。

实现方法：使用如下代码即可。

public static void main(String[] args) throws MalformedURLException, IOException, URISyntaxException, AWTException { //此方法仅适用于JdK1.6及以上版本 Desktop.getDesktop().browse( new URL("http://google.com/intl/en/").toURI()); Robot robot = new Robot(); robot.delay(10000); Dimension d = new Dimension(Toolkit.getDefaultToolkit().getScreenSize()); int width = (int) d.getWidth(); int height = (int) d.getHeight(); //最大化浏览器 robot.keyRelease(KeyEvent.VK_F11); robot.delay(2000); Image image = robot.createScreenCapture(new Rectangle(0, 0, width, height)); BufferedImage bi = new BufferedImage(width, height, BufferedImage.TYPE_INT_RGB); Graphics g = bi.createGraphics(); g.drawImage(image, 0, 0, width, height, null); //保存图片 ImageIO.write(bi, "jpg", new File("google.jpg")); }

2、最常规的方式——利用JNI，调用第三方C/C++组件

方法详解：目前来讲，Java领域对于网页截图组件的开发明显不足（商机？），当您需要完成此种操作时，算得上碰到了Java的软肋。但是，众所周知Java也拥有强大的JNI能力，可以轻易将C/C++开发的同类组件引为己用。

优势：实现简单，只需要封装对应的DLL文件，就可以让Java实现同类功能。

劣势：同其他JNI实现一样，在跨平台时存在隐患，而且您的程序将不再属于纯Java应用。

实现方法：可参见此用例，具体封装何种C/C++组件请自行选择。

PS：示例来源于ACA HTML to Image Converter项目（http://www.acasystems.com/en/web-thumb-activex/faq-convert-html-to-image-in-java.htm ），这是一个收费的HTML转Image第三方组件，但封装方式在Java中大同小异。

引用JNI封装：

import sun.awt.*; import java.awt.*; import javax.swing.*; import java.awt.event.*; import java.awt.*; import java.awt.peer.*; public class Snap { static { System.loadLibrary("Snap"); } public static void main( String[] argv ) { Snap t_xSnap = new Snap(); t_xSnap.Start("http://www.google.com", "snapshot-google.png"); } public native void Start(String pi_strURL, String pi_strImageName); }

CPP部分的实现：

#include <windows.h> #include <atlbase.h> #include "snap.h" #pragma comment(lib,"atl.lib") #import "./../../acawebthumb.dll" no_namespace JNIEXPORT void JNICALL Java_Snap_Start(JNIEnv *pEnv, jobject, jstring pi_strUrl, jstring pi_strFileName) { CoInitialize(0); _bstr_t t_strUrl = pEnv->GetStringUTFChars(pi_strUrl, 0); _bstr_t t_strFileName = pEnv->GetStringUTFChars(pi_strFileName, 0); IThumbMakerPtr HTML_Converter = NULL; HRESULT hr = HTML_Converter.CreateInstance(L"ACAWebThumb.ThumbMaker"); if (SUCCEEDED(hr)) { HTML_Converter->SetURL(t_strUrl); if ( 0 == HTML_Converter->StartSnap() ) HTML_Converter->SaveImage(t_strFileName); } if (HTML_Converter) HTML_Converter.Release(); CoUninitialize(); }

以该组件图像化yahoo界面的效果图：

3、最扎实的方法——自行解析HTML标记，并将其图像化

方法详解：众所周知，HTML之所以在浏览器中以具体的网页格式出现，并非服务器端传了一整个应用到客户端，而是源自于浏览器对于客户端自行解析的结果。因此，只要我们将对应的解析一一实现，那么将网页图形化，就将不是什么难事。

优势：纯Java实现，一劳永逸，一旦开发完成则永远通用，而且有一定的商用价值。

劣势：开发费时，且需要针对不同语法做精确分析，才能保证输出的基本正确。尤其在涉及到JavaScript解析时，难度将尤其增大。

实现方法：目前尚无具体案例可供参考。但是，由于Java有jdic之类的浏览器项目存在（https://jdic.dev.java.net/ ），而Java图形界面又属绘制生成。从理论上说，我们可以将所有具备Graphics的组件图形化保存。

而如果自行解析，那么您需要建立HTML解析器（或使用第三方的，万幸Java在这方面的组件很多），了解Java2D机制，了解何时该使用drawString绘制文字，何时又该使用drawImage插入图片等等。

补充：

这是一个利用内置浏览器截图的示例，使用了DJNativeSwing组件。

示例工程下载地址（Eclipse工程，含lib）：http://greenvm.googlecode.com/files/Screenshot.7z

import java.awt.BorderLayout; import java.awt.Dimension; import java.awt.FlowLayout; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; import javax.swing.JFrame; import javax.swing.JPanel; import javax.swing.SwingUtilities; import chrriis.dj.nativeswing.swtimpl.NativeComponent; import chrriis.dj.nativeswing.swtimpl.NativeInterface; import chrriis.dj.nativeswing.swtimpl.components.JWebBrowser; import chrriis.dj.nativeswing.swtimpl.components.WebBrowserAdapter; import chrriis.dj.nativeswing.swtimpl.components.WebBrowserEvent; public class Main extends JPanel { /** * */ private static final long serialVersionUID = 1L; // 行分隔符 final static public String LS = System.getProperty("line.separator", "/n"); // 文件分割符 final static public String FS = System.getProperty("file.separator", "//"); //以javascript脚本获得网页全屏后大小 final static StringBuffer jsDimension; static { jsDimension = new StringBuffer(); jsDimension.append("var width = 0;").append(LS); jsDimension.append("var height = 0;").append(LS); jsDimension.append("if(document.documentElement) {").append(LS); jsDimension.append( " width = Math.max(width, document.documentElement.scrollWidth);") .append(LS); jsDimension.append( " height = Math.max(height, document.documentElement.scrollHeight);") .append(LS); jsDimension.append("}").append(LS); jsDimension.append("if(self.innerWidth) {").append(LS); jsDimension.append(" width = Math.max(width, self.innerWidth);") .append(LS); jsDimension.append(" height = Math.max(height, self.innerHeight);") .append(LS); jsDimension.append("}").append(LS); jsDimension.append("if(document.body.scrollWidth) {").append(LS); jsDimension.append( " width = Math.max(width, document.body.scrollWidth);") .append(LS); jsDimension.append( " height = Math.max(height, document.body.scrollHeight);") .append(LS); jsDimension.append("}").append(LS); jsDimension.append("return width + ':' + height;"); } //DJNativeSwing组件请于http://djproject.sourceforge.net/main/index.html下载 public Main(final String url, final int maxWidth, final int maxHeight) { super(new BorderLayout()); JPanel webBrowserPanel = new JPanel(new BorderLayout()); final String fileName = System.currentTimeMillis() + ".jpg"; final JWebBrowser webBrowser = new JWebBrowser(null); webBrowser.setBarsVisible(false); webBrowser.navigate(url); webBrowserPanel.add(webBrowser, BorderLayout.CENTER); add(webBrowserPanel, BorderLayout.CENTER); JPanel panel = new JPanel(new FlowLayout(FlowLayout.CENTER, 4, 4)); webBrowser.addWebBrowserListener(new WebBrowserAdapter() { // 监听加载进度 public void loadingProgressChanged(WebBrowserEvent e) { // 当加载完毕时 if (e.getWebBrowser().getLoadingProgress() == 100) { String result = (String) webBrowser .executeJavascriptWithResult(jsDimension.toString()); int index = result == null ? -1 : result.indexOf(":"); NativeComponent nativeComponent = webBrowser .getNativeComponent(); Dimension originalSize = nativeComponent.getSize(); Dimension imageSize = new Dimension(Integer.parseInt(result .substring(0, index)), Integer.parseInt(result .substring(index + 1))); imageSize.width = Math.max(originalSize.width, imageSize.width + 50); imageSize.height = Math.max(originalSize.height, imageSize.height + 50); nativeComponent.setSize(imageSize); BufferedImage image = new BufferedImage(imageSize.width, imageSize.height, BufferedImage.TYPE_INT_RGB); nativeComponent.paintComponent(image); nativeComponent.setSize(originalSize); // 当网页超出目标大小时 if (imageSize.width > maxWidth || imageSize.height > maxHeight) { //截图部分图形 image = image.getSubimage(0, 0, maxWidth, maxHeight); /*此部分为使用缩略图 int width = image.getWidth(), height = image .getHeight(); AffineTransform tx = new AffineTransform(); tx.scale((double) maxWidth / width, (double) maxHeight / height); AffineTransformOp op = new AffineTransformOp(tx, AffineTransformOp.TYPE_NEAREST_NEIGHBOR); //缩小 image = op.filter(image, null);*/ } try { // 输出图像 ImageIO.write(image, "jpg", new File(fileName)); } catch (IOException ex) { ex.printStackTrace(); } // 退出操作 System.exit(0); } } } ); add(panel, BorderLayout.SOUTH); } public static void main(String[] args) { NativeInterface.open(); SwingUtilities.invokeLater(new Runnable() { public void run() { // SWT组件转Swing组件，不初始化父窗体将无法启动webBrowser JFrame frame = new JFrame("以DJ组件保存指定网页截图"); // 加载指定页面，最大保存为640x480的截图 frame.getContentPane().add( new Main("http://blog.csdn.net/cping1982", 640, 480), BorderLayout.CENTER); frame.setSize(800, 600); // 仅初始化，但不显示 frame.invalidate(); frame.pack(); frame.setVisible(false); } }); NativeInterface.runEventPump(); } }

posted on 2010-03-06 23:40 cping 阅读(525) 评论(0) 编辑收藏举报

刷新页面返回顶部

Java究竟怎么玩？

公告