随笔分类 - 人工智能
摘要:我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高。于是,我看了一些资料,就动起手来,实践了下。 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断一个新的块到底是不是标题。理论上,历史块的数量越庞大,那么结果越准确。其实经过实践不是这样的,我觉得
阅读全文
摘要:上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合。这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的。 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1)。 这段代码,就是给块打分的一个方法。它包含了投票思想以及归一处理问题的思想。对于一个块,我们从不
阅读全文
摘要:上面就是获取标题的整体逻辑代码。29行,是调用pdfboxLib,读取pdf第一页内容: 第23行 printer.processStream方法,会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition: 这样我们就利用pdfbox收集了pdf文
阅读全文
摘要:首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理代码,lib文件夹中,相当于数据库中的DBHelp类的作用。model文件夹就不用介绍了,大家都知道
阅读全文
摘要:由于工作的需要,研究c#抽取pdf文档标题有3个月了。这项工作是一项”伟大而艰巨”的任务。应该是我目前研究工作中最长的一次。我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳整理,倾诉给读者,使自己的心回归,重新回归自然、平静的状态。每一次的研究工作,说实话,都很累,犹如爬山。在到达山顶的那一
阅读全文