Web爬虫和JetSpeed
又一个不错的网站,关于JAVA的,记得在大三的时候时候就开始学习java,可惜没有坚持下来,不然现在也是大牛了,呵呵,YY一下。
在他上面找了些资料,大家继续发掘
【Java开源 Web爬虫】早在学习计算机网络的时候就了解这个名词,到现在还是没闹明白,看来要研究一下了
Heritrix
Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。
WebSPHINX
WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。
WebLech
WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。
Arale
Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。
J-Spider
J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。
spindle
spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。
Arachnid
Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。
LARM
LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。
JoBo
JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。
JetSpeed
Jetspeed是一个开放源代码的企业信息门户(EIP)的实现, 使用的技术是Java和XML. 用户可以使用浏览器, 支持WAP协议的手机或者其它的设备访问Jetspeed架设的信息门户获取信息. Jetspeed扮演着信息集中器的角色, 它能够把信息集中起来并且很容易地提供给用户. Jetspeed具有如下的特征: * 即将成为标准化的Java Portlet API * 基于模板的布局, 包括JSP和Velocity * 通过开放的内容同步技术支持远程XML内容交换 * 定制默认的主页 * 使用数据库进行用户认证 * 内存缓存技术, 加快页面的响应 * 通过Rich Site Summary技术, 支持同步内容 * 和Cocoon, WebMacro, Velocity集成. * Wireless Markup Language (WML) 支持 * 使用XML格式的配置文件注册portlet. * 完整的Web Application Archive (WAR) 支持 * Web应用程序开发的基础设施 * 可以在本地缓存远程内容 * 与Avantgo同步 * 可移植到所有支持JDK1.2和Servlet 2.2的平台 * 与Turbine模块和服务集成 * 可以根据用户, 安装媒体类型和语言的不同设定, 产生不同的个性化服务 * 持续化服务使得所由的portlet能够容易的存储每个用户的状态, 页面和portlet * 使用皮肤技术使得用户可以选择portlet的颜色和显示属性 * 自定义功能是的管理员可以选择portlet以及定义个人页面的布局 * 在数据库中存储PSML * 通过Jetspeed的安全portlets管理用户, 组,角色和权限 * 基于角色对访问portlet进行控制 |
|
http://jakarta.apache.org/jetspeed/ |