解析器 - 文章分类 - Robin99

使用HTMLParser提取新闻的例子

摘要：最近项目开发中编写了一个每日笑话功能。系统每天晚上自动从Internet固定网站中获得一条新的笑话并保存下来。笑话可在工作台显示，并支持前后滚动查看。该功能是通过htmlParser（一个纯的java写的html解析的库）技术实现。小编在这里贴出自己写的通过htmlParser解析html文本抓取新闻的案例。实现思路如下：设置网络代理分析网站首页的新闻列表，内容为【<div class=\"hotjd\"></div>】所有网页新闻地址的HTML内容。返回NodeList提取标题连接标签，获取标题。检查数据数库是否已存在该新闻，不存在就提取标题相应内阅读全文

posted @ 2012-04-26 11:58 Robin99 阅读(298) 评论(0) 推荐(0)

使用htmlparser解析html超链接

摘要：packageorg.zz.test;importorg.htmlparser.NodeFilter;importorg.htmlparser.Parser;importorg.htmlparser.filters.TagNameFilter;importorg.htmlparser.tags.LinkTag;importorg.htmlparser.util.NodeList;importorg.htmlparser.util.ParserException;importorg.htmlparser.visitors.HtmlPage;publicclassParserHtmlPage{pu 阅读全文

posted @ 2012-04-26 11:39 Robin99 阅读(401) 评论(0) 推荐(0)

c# 读取word文件文本内容

摘要：添加morcosoft word12.0 object Library引用（低版本的com也可以） //获得word文件的文本内容publicstringDoc2Text(stringdocFileName){//实例化COMMicrosoft.Office.Interop.Word.ApplicationClasswordApp=newMicrosoft.Office.Interop.Word.... 阅读全文

posted @ 2009-11-29 18:16 Robin99 阅读(1154) 评论(0) 推荐(0)

PDF解析器

摘要：dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 1.PDFBox的IKVM版本：据我所知，目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本，PDFBOX更多信息请访问http://www.pdbox.org，关于其应用实例，可以参考CodeProject上的：http://www.codeproject.com/csharp/pdf2text.asp;2.使用Acr... 阅读全文

posted @ 2009-11-29 18:12 Robin99 阅读(9859) 评论(0) 推荐(2)

Robin's Blog

公告

文章分类 - 解析器