Html生成标签树
摘要:http://blog.csdn.net/RonoTian/article/details/2517568
阅读全文
python的
摘要:http://www.elias.cn/MyProject/ExtMainText这是一个使用Python语言实现的函数库,能够帮助从html文档中提取文档正文,换句话说也就是能够过滤页面上的广告、栏目导航等非正文内容。此函数库可以用在从其他网站抓取文章内容的过程中,以及帮助搜索引擎抓取器忽略无关内容,将页面分析集中到网页更有价值的部分。函数实现的基本原理是“正文标签密度法”,0.2版本计算网页每个html标签下的“正文长度/标签下所有字符总长”,取文档中密度高于制定阈值的最长部分作为文档正文输出。原理见:The Easy Way to Extract Useful Text from Arb
阅读全文
网页正文提取的思路
摘要:在不断追踪网页文本提取的技术,这篇文章中提到的做法很有实用价值! 网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。另外,有人利用开源的Tidy,把不规范的网页规范化,然后利用DOM Tree,把包含正文的<talbe>...</table>提取出来,然后去除其中的链接信息。 还有一种简单的方法:对网页中的所有<table> ...</table>,计算其中所含内容中的中文标点符号,并结合内容中所包含的链接数,综合判断,以确定到底
阅读全文
网页正文抽取-能用的抽取-代码-java
摘要:http://www.chainlt.com/?p=1018从google code下载到的.我自己又做了些修改,使其可以包含图片.123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114
阅读全文
C#实现网页正文提取算法ok
摘要:http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路:1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用。于是我自己写了个算法,可以把网页里的d
阅读全文
C#实现网页正文提取算法
摘要:http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路:1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用。于是我自己写了个算法,可以把网页里的d
阅读全文
网页内容正文提取算法收集
摘要:http://www.biaodianfu.com/a-newapproach-to-content-extraction-from-web-page.htmlhttp://www.docin.com/p-131616050.html#http://hi.baidu.com/vcprogrammer/blog/item/dc8ce1c44b9d9ac638db4952.htmlhttp://blog.chinaunix.net/uid-13030755-id-2909453.htmlhttp://blog.csdn.net/tingya/article/details/601836
阅读全文
泛采集技术
摘要:原文地址:http://www.qiufeng.org/qi_ta_ji_shu/fan_cai_ji_ji_shu_de_yi_xie_xin_xi_shou_ji什么是泛采集:泛采集无需编写采集规则,可以通过设定的关键词,通过搜索引擎采集互联网上众多网站的内容。国外也叫 Get Main Content, Extract Useful Text from Arbitrary HTML 等.demo:http://219.153.39.48/txt/http://www.lietu.com/extract/http://www.woniu.us/get_content_demo/Some s
阅读全文