摘要:
在不断追踪网页文本提取的技术,这篇文章中提到的做法很有实用价值! 网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。另外,有人利用开源的Tidy,把不规范的网页规范化,然后利用DOM Tree,把包含正文的<talbe>...</table>提取出来,然后去除其中的链接信息。 还有一种简单的方法:对网页中的所有<table> ...</table>,计算其中所含内容中的中文标点符号,并结合内容中所包含的链接数,综合判断,以确定到底 阅读全文
摘要:
http://www.chainlt.com/?p=1018从google code下载到的.我自己又做了些修改,使其可以包含图片.123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114 阅读全文
摘要:
http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路:1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用。于是我自己写了个算法,可以把网页里的d 阅读全文
摘要:
http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路:1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用。于是我自己写了个算法,可以把网页里的d 阅读全文
摘要:
http://www.biaodianfu.com/a-newapproach-to-content-extraction-from-web-page.htmlhttp://www.docin.com/p-131616050.html#http://hi.baidu.com/vcprogrammer/blog/item/dc8ce1c44b9d9ac638db4952.htmlhttp://blog.chinaunix.net/uid-13030755-id-2909453.htmlhttp://blog.csdn.net/tingya/article/details/601836 阅读全文