micDavid - 博客园

2017年10月27日

摘要：上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合。这篇着重介绍下，过滤规则，毕竟我们是使用规则过滤，最后得到标题的。首先看归一化处理，什么是归一化呢？就是使结果始终处于0-1之间(包括0,1）。这段代码，就是给块打分的一个方法。它包含了投票思想以及归一处理问题的思想。对于一个块，我们从不阅读全文

posted @ 2017-10-27 15:24 micDavid 阅读(318) 评论(0) 推荐(0) 编辑

c#抽取pdf文档标题（2）

摘要：上面就是获取标题的整体逻辑代码。29行，是调用pdfboxLib，读取pdf第一页内容：第23行 printer.processStream方法，会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition：这样我们就利用pdfbox收集了pdf文阅读全文

posted @ 2017-10-27 14:53 micDavid 阅读(716) 评论(0) 推荐(0) 编辑

c#抽取pdf文档标题（1）

摘要：首先看看我的项目结构：从上面的结果图中，我们可以看出，主要用了两个库：itextsharp.dll 和 pdfbox-1.8.9.dll，dll文件夹存放引用的库，handles文件夹存放抽取的处理代码，lib文件夹中，相当于数据库中的DBHelp类的作用。model文件夹就不用介绍了，大家都知道阅读全文

posted @ 2017-10-27 14:23 micDavid 阅读(963) 评论(0) 推荐(0) 编辑

c#抽取pdf文档标题——前言

摘要：由于工作的需要，研究c#抽取pdf文档标题有3个月了。这项工作是一项”伟大而艰巨”的任务。应该是我目前研究工作中最长的一次。我觉得在长时间忙碌后，应该找些时间，把自己的心路历程归纳整理，倾诉给读者，使自己的心回归，重新回归自然、平静的状态。每一次的研究工作，说实话，都很累，犹如爬山。在到达山顶的那一阅读全文

posted @ 2017-10-27 10:59 micDavid 阅读(262) 评论(0) 推荐(0) 编辑

用正则获取网页中的标签内容

摘要：有个同事想要从html网页标签中提取特定内容，让我帮忙看看。我研究了下，做了个小工具。目标：匹配出 <p><label id="catalog_FUND">基金：</label> 这个p标签里面的a标签的内容解决方案：由于一次性匹配出来，难度太大，因此可分为两步走，首先获取这个p标签里面的所有a 阅读全文

posted @ 2017-10-27 09:19 micDavid 阅读(5896) 评论(0) 推荐(1) 编辑

2017年10月25日

office 2013补丁包更新

摘要：总是有客户发现使用office 2013 下的插件有问题，这个问题出现在低版本上，所以要给office 2013打上补丁，打上后，运行插件ok，出现的bug解决掉了。那么给office打补丁包就成了解决此类bug的方案。如何给office打补丁包呢？ 360卫士可以扫描软件漏洞，然后在线下载并安装补阅读全文

posted @ 2017-10-25 14:14 micDavid 阅读(5325) 评论(0) 推荐(0) 编辑

2017年10月18日

wpf研究之道-ProgressBar（进度条）控件

摘要： ProgressBar控件，非常有用。它在什么情况下有用呢？如何使用？带着这两个问题，我们探讨下。如果程序需要很长时间来运行，用户在不知道的情况下，以为程序已经“卡死”了，没有响应，这时候就该用进度条了，它主动告诉用户的执行情况，那么用户知道还需要等待多久。上面的使用场景，很好理解，那么，如何使阅读全文

posted @ 2017-10-18 18:05 micDavid 阅读(1919) 评论(0) 推荐(0) 编辑

sqlserver中压缩日志文件

摘要：最近在转移数据，sqlserver的日志文件ldf，占用空间特别大，为了还原库，节省空间，所以压缩日志文件迫在眉睫。在网上找了一段代码：把数据库名称替换成自己的数据库即可，还真的可以压缩，我几个G的数据量直接压缩到了11M大小，我很是惊讶。那么我们先来理解下 DBCC SHRINKFILE 命令，阅读全文

posted @ 2017-10-18 15:51 micDavid 阅读(9485) 评论(1) 推荐(0) 编辑

2017年7月19日

git命令的使用

摘要：记住一大堆git命令，没有任何意义。所谓”学以致用”，”在用中学”是有一定道理的。我们用git命令解决两大问题：一、如何将本地项目上传到git 二、修改了本地文件，如何同步到git 想必这两个问题，是开始学习git命令，很想应用的。添加项目： 1、（先进入项目文件夹）通过命令 git init 阅读全文

posted @ 2017-07-19 17:42 micDavid 阅读(303) 评论(0) 推荐(0) 编辑

c#开发wps插件（3）部署

摘要：上一篇，我们完成了具体的开发工作，但是最终必须得部署到客户机器上。所以，部署方面，我花费了一些时间去研究，现在总结下。上一篇中，我为什么建议开发人员安装wps专业版呢？因为装了专业版，方便我们开发，安装过程中会顺便把 office PIA安装到GAC中。否则，我们还得手动安装PIA，这个过程极其繁琐阅读全文

posted @ 2017-07-19 16:20 micDavid 阅读(5211) 评论(2) 推荐(1) 编辑

guigui_xi'an city

公告