10 2017 档案
摘要:我们知道WPF中普通的按钮,长得丑,所以自定义按钮,在所难免。我们给按钮添加 MoveBrush,EnterBrush两把刷子,其实就是鼠标经过和鼠标按下的效果。只不过这不是普通的刷子,而是带图片的ImageBrush刷子。 从代码中可以看出,DependencyProperty MoveBrush
阅读全文
摘要:我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高。于是,我看了一些资料,就动起手来,实践了下。 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断一个新的块到底是不是标题。理论上,历史块的数量越庞大,那么结果越准确。其实经过实践不是这样的,我觉得
阅读全文
摘要:上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合。这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的。 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1)。 这段代码,就是给块打分的一个方法。它包含了投票思想以及归一处理问题的思想。对于一个块,我们从不
阅读全文
摘要:上面就是获取标题的整体逻辑代码。29行,是调用pdfboxLib,读取pdf第一页内容: 第23行 printer.processStream方法,会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition: 这样我们就利用pdfbox收集了pdf文
阅读全文
摘要:首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理代码,lib文件夹中,相当于数据库中的DBHelp类的作用。model文件夹就不用介绍了,大家都知道
阅读全文
摘要:由于工作的需要,研究c#抽取pdf文档标题有3个月了。这项工作是一项”伟大而艰巨”的任务。应该是我目前研究工作中最长的一次。我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳整理,倾诉给读者,使自己的心回归,重新回归自然、平静的状态。每一次的研究工作,说实话,都很累,犹如爬山。在到达山顶的那一
阅读全文
摘要:有个同事想要从html网页标签中提取特定内容,让我帮忙看看。我研究了下,做了个小工具。 目标:匹配出 <p><label id="catalog_FUND">基金:</label> 这个p标签里面的a标签的内容 解决方案:由于一次性匹配出来,难度太大,因此可分为两步走,首先获取这个p标签里面的所有a
阅读全文
摘要:总是有客户发现使用office 2013 下的插件有问题,这个问题出现在低版本上,所以要给office 2013打上补丁,打上后,运行插件ok,出现的bug解决掉了。那么给office打补丁包就成了解决此类bug的方案。如何给office打补丁包呢? 360卫士可以扫描软件漏洞,然后在线下载并安装补
阅读全文
摘要:ProgressBar控件,非常有用。它在什么情况下有用呢?如何使用?带着这两个问题,我们探讨下。 如果程序需要很长时间来运行,用户在不知道的情况下,以为程序已经“卡死”了,没有响应,这时候就该用进度条了,它主动告诉用户的执行情况,那么用户知道还需要等待多久。 上面的使用场景,很好理解,那么,如何使
阅读全文
摘要:最近在转移数据,sqlserver的日志文件ldf,占用空间特别大,为了还原库,节省空间,所以压缩日志文件迫在眉睫。在网上找了一段代码: 把数据库名称替换成自己的数据库即可,还真的可以压缩,我几个G的数据量直接压缩到了11M大小,我很是惊讶。那么我们先来理解下 DBCC SHRINKFILE 命令,
阅读全文