人工智能 - 随笔分类 - micDavid

c#抽取pdf文档标题（4）——机器学习以及决策树

摘要：我的一位同事告诉我，pdf抽取标题，用机器学习可以完美解决问题，抽取的准确率比较高。于是，我看了一些资料，就动起手来，实践了下。我主要是根据以往历史块的特征生成一个决策树，然后利用这棵决策树，去判断一个新的块到底是不是标题。理论上，历史块的数量越庞大，那么结果越准确。其实经过实践不是这样的，我觉得阅读全文

posted @ 2017-10-27 16:17 micDavid 阅读(589) 评论(0) 推荐(0)

c#抽取pdf文档标题（3）

摘要：上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合。这篇着重介绍下，过滤规则，毕竟我们是使用规则过滤，最后得到标题的。首先看归一化处理，什么是归一化呢？就是使结果始终处于0-1之间(包括0,1）。这段代码，就是给块打分的一个方法。它包含了投票思想以及归一处理问题的思想。对于一个块，我们从不阅读全文

posted @ 2017-10-27 15:24 micDavid 阅读(371) 评论(0) 推荐(0)

c#抽取pdf文档标题（2）

摘要：上面就是获取标题的整体逻辑代码。29行，是调用pdfboxLib，读取pdf第一页内容：第23行 printer.processStream方法，会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition：这样我们就利用pdfbox收集了pdf文阅读全文

posted @ 2017-10-27 14:53 micDavid 阅读(745) 评论(0) 推荐(0)

c#抽取pdf文档标题（1）

摘要：首先看看我的项目结构：从上面的结果图中，我们可以看出，主要用了两个库：itextsharp.dll 和 pdfbox-1.8.9.dll，dll文件夹存放引用的库，handles文件夹存放抽取的处理代码，lib文件夹中，相当于数据库中的DBHelp类的作用。model文件夹就不用介绍了，大家都知道阅读全文

posted @ 2017-10-27 14:23 micDavid 阅读(993) 评论(0) 推荐(0)

c#抽取pdf文档标题——前言

摘要：由于工作的需要，研究c#抽取pdf文档标题有3个月了。这项工作是一项”伟大而艰巨”的任务。应该是我目前研究工作中最长的一次。我觉得在长时间忙碌后，应该找些时间，把自己的心路历程归纳整理，倾诉给读者，使自己的心回归，重新回归自然、平静的状态。每一次的研究工作，说实话，都很累，犹如爬山。在到达山顶的那一阅读全文

posted @ 2017-10-27 10:59 micDavid 阅读(281) 评论(0) 推荐(0)

guigui_xi'an city

随笔分类 - 人工智能

公告