泛采集技术

原文地址:http://www.qiufeng.org/qi_ta_ji_shu/fan_cai_ji_ji_shu_de_yi_xie_xin_xi_shou_ji

什么是泛采集:泛采集无需编写采集规则,可以通过设定的关键词,通过搜索引擎采集互联网上众多网站的内容。

国外也叫 Get Main Content, Extract Useful Text from Arbitrary HTML 等.

demo:

http://219.153.39.48/txt/
http://www.lietu.com/extract/
http://www.woniu.us/get_content_demo/

Some source code:

http://www.cnblogs.com/onlytiancai/archive/2008/04/12/getmaincontent.html
http://www.elias.cn/MyProject/ExtMainText
http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx

http://blog.csdn.net/hzxdark/article/details/3565929

国外的一些信息:
算法1
原文:  http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
翻译: http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx

API:
http://www.alchemyapi.com/api/text/

Wiki:
http://wisdombase.net/wiki/index.php?title=Html_Content_Extraction_Resources

posted on 2012-04-11 17:52  fancing  阅读(509)  评论(0编辑  收藏  举报