摘要:
上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合。这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的。 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1)。 这段代码,就是给块打分的一个方法。它包含了投票思想以及归一处理问题的思想。对于一个块,我们从不 阅读全文
摘要:
上面就是获取标题的整体逻辑代码。29行,是调用pdfboxLib,读取pdf第一页内容: 第23行 printer.processStream方法,会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition: 这样我们就利用pdfbox收集了pdf文 阅读全文
摘要:
首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理代码,lib文件夹中,相当于数据库中的DBHelp类的作用。model文件夹就不用介绍了,大家都知道 阅读全文
摘要:
由于工作的需要,研究c#抽取pdf文档标题有3个月了。这项工作是一项”伟大而艰巨”的任务。应该是我目前研究工作中最长的一次。我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳整理,倾诉给读者,使自己的心回归,重新回归自然、平静的状态。每一次的研究工作,说实话,都很累,犹如爬山。在到达山顶的那一 阅读全文
摘要:
有个同事想要从html网页标签中提取特定内容,让我帮忙看看。我研究了下,做了个小工具。 目标:匹配出 <p><label id="catalog_FUND">基金:</label> 这个p标签里面的a标签的内容 解决方案:由于一次性匹配出来,难度太大,因此可分为两步走,首先获取这个p标签里面的所有a 阅读全文