随笔档案「2012年4月」 - fancing

摘要：http://blog.csdn.net/RonoTian/article/details/2517568 阅读全文

posted @ 2012-04-14 11:37 fancing 阅读(217) 评论(0) 推荐(0)

摘要：http://www.elias.cn/MyProject/ExtMainText这是一个使用Python语言实现的函数库，能够帮助从html文档中提取文档正文，换句话说也就是能够过滤页面上的广告、栏目导航等非正文内容。此函数库可以用在从其他网站抓取文章内容的过程中，以及帮助搜索引擎抓取器忽略无关内容，将页面分析集中到网页更有价值的部分。函数实现的基本原理是“正文标签密度法”，0.2版本计算网页每个html标签下的“正文长度/标签下所有字符总长”，取文档中密度高于制定阈值的最长部分作为文档正文输出。原理见：The Easy Way to Extract Useful Text from Arb 阅读全文

posted @ 2012-04-14 10:05 fancing 阅读(416) 评论(0) 推荐(0)

网页正文提取的思路

摘要：在不断追踪网页文本提取的技术，这篇文章中提到的做法很有实用价值！网页由于格式千变万化，要找到一种能提取任意网页正文的算法，并能达到应用需要的准确度，具有一定难度。因此，总避免不了在提取程序中添加一些规则，对不同的网页类型作不同处理。另外，有人利用开源的Tidy,把不规范的网页规范化，然后利用DOM Tree，把包含正文的<talbe>...</table>提取出来，然后去除其中的链接信息。还有一种简单的方法：对网页中的所有<table> ...</table>，计算其中所含内容中的中文标点符号，并结合内容中所包含的链接数，综合判断，以确定到底阅读全文

posted @ 2012-04-14 09:59 fancing 阅读(2374) 评论(0) 推荐(0)

网页正文抽取-能用的抽取-代码-java

摘要：http://www.chainlt.com/?p=1018从google code下载到的.我自己又做了些修改,使其可以包含图片.123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114 阅读全文

posted @ 2012-04-14 09:41 fancing 阅读(1884) 评论(0) 推荐(1)

C#实现网页正文提取算法ok

摘要：http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路：1、抓取远程网页源码，这里要实现自动判断网页编码，否则有可能抓到乱码。我是先看应答的 http头的chareset，一般这个很准，但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致，所以我手工加了一下判断，如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本，都不太好用。于是我自己写了个算法，可以把网页里的d 阅读全文

posted @ 2012-04-14 09:38 fancing 阅读(963) 评论(0) 推荐(0)

C#实现网页正文提取算法

摘要：http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路：1、抓取远程网页源码，这里要实现自动判断网页编码，否则有可能抓到乱码。我是先看应答的 http头的chareset，一般这个很准，但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致，所以我手工加了一下判断，如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本，都不太好用。于是我自己写了个算法，可以把网页里的d 阅读全文

posted @ 2012-04-14 09:37 fancing 阅读(2088) 评论(3) 推荐(1)

网页内容正文提取算法收集

摘要：http://www.biaodianfu.com/a-newapproach-to-content-extraction-from-web-page.htmlhttp://www.docin.com/p-131616050.html#http://hi.baidu.com/vcprogrammer/blog/item/dc8ce1c44b9d9ac638db4952.htmlhttp://blog.chinaunix.net/uid-13030755-id-2909453.htmlhttp://blog.csdn.net/tingya/article/details/601836 阅读全文

posted @ 2012-04-14 09:25 fancing 阅读(385) 评论(0) 推荐(0)

泛采集技术

摘要：原文地址：http://www.qiufeng.org/qi_ta_ji_shu/fan_cai_ji_ji_shu_de_yi_xie_xin_xi_shou_ji什么是泛采集：泛采集无需编写采集规则，可以通过设定的关键词，通过搜索引擎采集互联网上众多网站的内容。国外也叫 Get Main Content, Extract Useful Text from Arbitrary HTML 等.demo:http://219.153.39.48/txt/http://www.lietu.com/extract/http://www.woniu.us/get_content_demo/Some s 阅读全文

posted @ 2012-04-11 17:52 fancing 阅读(522) 评论(0) 推荐(0)

导航

04 2012 档案