摘要: 我们知道WPF中普通的按钮,长得丑,所以自定义按钮,在所难免。我们给按钮添加 MoveBrush,EnterBrush两把刷子,其实就是鼠标经过和鼠标按下的效果。只不过这不是普通的刷子,而是带图片的ImageBrush刷子。 从代码中可以看出,DependencyProperty MoveBrush 阅读全文
posted @ 2017-10-27 18:47 micDavid 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高。于是,我看了一些资料,就动起手来,实践了下。 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断一个新的块到底是不是标题。理论上,历史块的数量越庞大,那么结果越准确。其实经过实践不是这样的,我觉得 阅读全文
posted @ 2017-10-27 16:17 micDavid 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合。这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的。 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1)。 这段代码,就是给块打分的一个方法。它包含了投票思想以及归一处理问题的思想。对于一个块,我们从不 阅读全文
posted @ 2017-10-27 15:24 micDavid 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 上面就是获取标题的整体逻辑代码。29行,是调用pdfboxLib,读取pdf第一页内容: 第23行 printer.processStream方法,会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition: 这样我们就利用pdfbox收集了pdf文 阅读全文
posted @ 2017-10-27 14:53 micDavid 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理代码,lib文件夹中,相当于数据库中的DBHelp类的作用。model文件夹就不用介绍了,大家都知道 阅读全文
posted @ 2017-10-27 14:23 micDavid 阅读(965) 评论(0) 推荐(0) 编辑
摘要: 由于工作的需要,研究c#抽取pdf文档标题有3个月了。这项工作是一项”伟大而艰巨”的任务。应该是我目前研究工作中最长的一次。我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳整理,倾诉给读者,使自己的心回归,重新回归自然、平静的状态。每一次的研究工作,说实话,都很累,犹如爬山。在到达山顶的那一 阅读全文
posted @ 2017-10-27 10:59 micDavid 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 有个同事想要从html网页标签中提取特定内容,让我帮忙看看。我研究了下,做了个小工具。 目标:匹配出 <p><label id="catalog_FUND">基金:</label> 这个p标签里面的a标签的内容 解决方案:由于一次性匹配出来,难度太大,因此可分为两步走,首先获取这个p标签里面的所有a 阅读全文
posted @ 2017-10-27 09:19 micDavid 阅读(5896) 评论(0) 推荐(1) 编辑