apache tika - 随笔分类 - 刺猬的温驯

Apache Tika源码研究（八）

摘要：本文主要分析tika的语言检测以及tika解决随机访问读取的问题，由于语言检测功能的实现设计一些算法，我这里就不贴出tika的源码了tika的语言检测的相关接口和类的uml模型图如下如果要获取文档内容和语言，我们可以新增DelegatingParser解析类，继承自DelegatingParser，... 阅读全文

posted @ 2013-03-11 04:00 刺猬的温驯阅读(1391) 评论(3) 推荐(0)

Apache Tika源码研究（七）

摘要：tika怎样加载Parser实现类的，怎样根据文档的mime类型调用相应的Parser实现类,本文接着分析先熟悉一下tika的解析类的相关接口和类的UML模型：Parser接口的源码如下：/** * Tika parser interface. */public interface Parser e... 阅读全文

posted @ 2013-03-10 03:29 刺猬的温驯阅读(1259) 评论(0) 推荐(0)

Apache Tika源码研究（六）

摘要：上文还没有来得及分析Apache Tika是怎样检测文档的mime类型的，以及怎样根据mime类型找到相应的Parser解析类的，下面接着说在tika-parsers.jar路径文件META-INF/services/org.apache.tika.detect.Detector记录了tika提供的... 阅读全文

posted @ 2013-03-09 04:01 刺猬的温驯阅读(1145) 评论(0) 推荐(0)

Apache Tika源码研究（五）

摘要：Apache Tika是怎么识别待解析文档的mime类型的，是怎么根据mime类型得到相应的解析类Parser的，如果我们添加自定义mime类型以及相应的解析类，又该怎么处理呢？前面的文章还没有具体解决这些关键问题在tika-core的jar路径org.apache.tika.mime下有一tika... 阅读全文

posted @ 2013-03-09 02:24 刺猬的温驯阅读(1857) 评论(0) 推荐(1)

Apache Tika源码研究（四）

摘要：上文分析了具体的解析类HtmlParser对网页文档的解析实现源码，了解到了Apache Tika的编码识别的处理方式。（HtmlParser对网页文件的解析其实并没有用到ParseContext上下文类的SAXParser对象，而是用到了另外一个TagSoup组件）本文继续分析Tika对xml格式... 阅读全文

posted @ 2013-03-08 02:38 刺猬的温驯阅读(1013) 评论(0) 推荐(1)

Apache Tika源码研究（三）

摘要：上文我们基本知道Tika是通过SAXParser来解析XHTML文档的，下面我通过一个具体的解析类HtmlParser入手，来看看网页文件的解析过程。首先看看HtmlParser类的继承层次，HtmlParser继承自抽象类AbstractParser，而AbstractParser实现了Parse... 阅读全文

posted @ 2013-03-07 18:19 刺猬的温驯阅读(2454) 评论(0) 推荐(0)

Apache Tika源码研究（二）

摘要：上文分析了Apache Tika的编码识别相关接口和实现类本文接着分析Apache Tika用到的一个关键类ParseContext，这里要明白Tika解析文档的方式，Tika将文件都解析为XHTML格式的文档，然后采用SAX基于事件的方式来解析这个XHTML格式，先来看看ParseContext类... 阅读全文

posted @ 2013-03-07 17:04 刺猬的温驯阅读(785) 评论(0) 推荐(0)

Apache Tika源码研究（一）

摘要：因为采用Apache Tika解析网页文件时产生乱码问题，所以后来仔细看了一下Apache Tika源码先浏览一下tika编码识别的相关接口和类的UML模型下面是编码识别接口，EncodingDetector.javapublic interface EncodingDetector { /*... 阅读全文

posted @ 2013-03-07 04:47 刺猬的温驯阅读(3076) 评论(7) 推荐(1)

Apache Tika:通用的内容分析工具

摘要：项目介绍Tika是一个内容分析工具，自带全面的parser工具类，能解析基本所有常见格式的文件，得到文件的metadata，content等内容，返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是一个目的明确，使用简单的apache的开源项目。下图是Tika诞生的一个历史过程。Tika项目之初来源于Nutch项目(大家应该都不陌生)，现在是Lucene的子项目，所以也是来源于搜索引擎。其实Nutch这个项目的开发过程中，孕育了不少东西，应该都归功于Doug Cutting。我个人也是觉得这件事情很赞，要搞Nutch这样一个通用的搜索引阅读全文

posted @ 2013-03-07 02:17 刺猬的温驯阅读(4521) 评论(0) 推荐(2)

用 Apache Tika 理解信息内容

摘要：简介在本教程中，我们将通过解释性的例子介绍 Apache Tika 框架并解释它的概念（比如 N-gram、解析、mime 检测以及内容分析），这些例子不仅适用于老练的软件开发人员，而且也同样适用于内容分析和编程的初学者。我们假设您具有 Java™ 编程语言的应用知识以及用于分析的足够内容。通过本教程，您将学会：Apache Tika 的 API、最相关的模块以及相关的函数Apache Nutch （Tika 的先驱之一）以及它的 NgramProfiler 和 LanguageIdentifier 类，它们最近被移植到了 Tika代码页检测器项目 cpdetector 及其功能什么是 Apa 阅读全文

posted @ 2012-10-31 17:52 刺猬的温驯阅读(934) 评论(1) 推荐(0)

使用Tika进行非结构化内容的读写-1

摘要：转载http://flym.iteye.com/blog/723430前缀时间在使用Jackrabbit作非结构化内容的存取，当问到当存取一个word文档时，jackrabbit能不能对word文档里面的内容作全文检索呢。回去查了一下相关的文档，是可以的，而且用的是一个叫Tika的工具。 Tika原先是一个Lucene的子项目，即对内容作元数据抽取用。更多的时候，是对一个平时所用的文档类数据作信息的进一步读取，这些信息是隐藏在文档本身的。这就要求有一个统一的工具来做这些事情，而Tika就提供了一个统一的调用接口来完成这些工作。 Tika通过一个parser和一个contentHandler来进阅读全文

posted @ 2012-09-11 23:19 刺猬的温驯阅读(1172) 评论(0) 推荐(0)

Apache Tika

摘要：Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI,Pdfbox并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。在当前的0.2-SNAPSHOT版本中， Tika提供了对如下文件格式的支持:PDF - 通过PdfboxMS-* - 通过POIHTML - 使用nekohtml将不规范的html整理成为xhtmlOpenOffice 格式 - Tika提供Archive - zip, tar, gzip, bzip等RTF - Tika提供Java class - Cla 阅读全文

posted @ 2012-09-10 17:47 刺猬的温驯阅读(2030) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

随笔分类 - apache tika

君子博学而日参省乎己 则知明而行无过矣

公告

随笔分类 - apache tika

君子博学而日参省乎己则知明而行无过矣