Robin's Blog

记录 积累 学习 成长

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

文章分类 -  解析器

摘要:最近项目开发中编写了一个每日笑话功能。系统每天晚上自动从Internet固定网站中获得一条新的笑话并保存下来。笑话可在工作台显示,并支持前后滚动查看。该功能是通过htmlParser(一个纯的java写的html解析的库)技术实现。小编在这里贴出自己写的通过htmlParser解析html文本抓取新闻的案例。实现思路如下:设置网络代理分析网站首页的新闻列表,内容为【<div class=\"hotjd\"></div>】所有网页新闻地址的HTML内容。返回NodeList提取标题连接标签,获取标题。检查数据数库是否已存在该新闻,不存在就提取标题相应内 阅读全文
posted @ 2012-04-26 11:58 Robin99 阅读(291) 评论(0) 推荐(0) 编辑

摘要:packageorg.zz.test;importorg.htmlparser.NodeFilter;importorg.htmlparser.Parser;importorg.htmlparser.filters.TagNameFilter;importorg.htmlparser.tags.LinkTag;importorg.htmlparser.util.NodeList;importorg.htmlparser.util.ParserException;importorg.htmlparser.visitors.HtmlPage;publicclassParserHtmlPage{pu 阅读全文
posted @ 2012-04-26 11:39 Robin99 阅读(391) 评论(0) 推荐(0) 编辑

摘要:添加morcosoft word12.0 object Library引用(低版本的com也可以) //获得word文件的文本内容publicstringDoc2Text(stringdocFileName){//实例化COMMicrosoft.Office.Interop.Word.ApplicationClasswordApp=newMicrosoft.Office.Interop.Word.... 阅读全文
posted @ 2009-11-29 18:16 Robin99 阅读(1144) 评论(0) 推荐(0) 编辑

摘要:dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 1.PDFBox的IKVM版本:据我所知,目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本,PDFBOX更多信息请访问http://www.pdbox.org,关于其应用实例,可以参考CodeProject上的:http://www.codeproject.com/csharp/pdf2text.asp;2.使用Acr... 阅读全文
posted @ 2009-11-29 18:12 Robin99 阅读(9665) 评论(0) 推荐(2) 编辑