fancing - 博客园

网页正文提取的思路

摘要：在不断追踪网页文本提取的技术，这篇文章中提到的做法很有实用价值！网页由于格式千变万化，要找到一种能提取任意网页正文的算法，并能达到应用需要的准确度，具有一定难度。因此，总避免不了在提取程序中添加一些规则，对不同的网页类型作不同处理。另外，有人利用开源的Tidy,把不规范的网页规范化，然后利用DOM Tree，把包含正文的<talbe>...</table>提取出来，然后去除其中的链接信息。还有一种简单的方法：对网页中的所有<table> ...</table>，计算其中所含内容中的中文标点符号，并结合内容中所包含的链接数，综合判断，以确定到底阅读全文

posted @ 2012-04-14 09:59 fancing 阅读(2252) 评论(0) 推荐(0) 编辑

网页正文抽取-能用的抽取-代码-java

摘要： http://www.chainlt.com/?p=1018从google code下载到的.我自己又做了些修改,使其可以包含图片.123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114 阅读全文

posted @ 2012-04-14 09:41 fancing 阅读(1876) 评论(0) 推荐(1) 编辑

C#实现网页正文提取算法ok

摘要： http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路：1、抓取远程网页源码，这里要实现自动判断网页编码，否则有可能抓到乱码。我是先看应答的 http头的chareset，一般这个很准，但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致，所以我手工加了一下判断，如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本，都不太好用。于是我自己写了个算法，可以把网页里的d 阅读全文

posted @ 2012-04-14 09:38 fancing 阅读(949) 评论(0) 推荐(0) 编辑

C#实现网页正文提取算法

摘要： http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路：1、抓取远程网页源码，这里要实现自动判断网页编码，否则有可能抓到乱码。我是先看应答的 http头的chareset，一般这个很准，但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致，所以我手工加了一下判断，如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本，都不太好用。于是我自己写了个算法，可以把网页里的d 阅读全文

posted @ 2012-04-14 09:37 fancing 阅读(2049) 评论(3) 推荐(1) 编辑

网页内容正文提取算法收集

摘要： http://www.biaodianfu.com/a-newapproach-to-content-extraction-from-web-page.htmlhttp://www.docin.com/p-131616050.html#http://hi.baidu.com/vcprogrammer/blog/item/dc8ce1c44b9d9ac638db4952.htmlhttp://blog.chinaunix.net/uid-13030755-id-2909453.htmlhttp://blog.csdn.net/tingya/article/details/601836 阅读全文

posted @ 2012-04-14 09:25 fancing 阅读(377) 评论(0) 推荐(0) 编辑

泛采集技术

摘要：原文地址：http://www.qiufeng.org/qi_ta_ji_shu/fan_cai_ji_ji_shu_de_yi_xie_xin_xi_shou_ji什么是泛采集：泛采集无需编写采集规则，可以通过设定的关键词，通过搜索引擎采集互联网上众多网站的内容。国外也叫 Get Main Content, Extract Useful Text from Arbitrary HTML 等.demo:http://219.153.39.48/txt/http://www.lietu.com/extract/http://www.woniu.us/get_content_demo/Some s 阅读全文

posted @ 2012-04-11 17:52 fancing 阅读(513) 评论(0) 推荐(0) 编辑

查询一个数据表中的数据并插入到另一个数据表

摘要： insert into xinlou_a_left select lname,lurl,lid from xinche_a_left where id in (12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47) 阅读全文

posted @ 2012-03-27 18:32 fancing 阅读(261) 评论(0) 推荐(0) 编辑

sql getdate() 时间格式设置

摘要： SqlServer中一个非常强大的日期格式化函数常用：SelectCONVERT(varchar(100),GETDATE(),23):2006-05-16SelectCONVERT(varchar(100),GETDATE(),0):0516200610:57AMSelectCONVERT(varchar(100),GETDATE(),1):05/16/06SelectCONVERT(varchar(100),GETDATE(),2):06.05.16SelectCONVERT(varchar(100),GETDATE(),3):16/05/06SelectCONVERT(varchar(1 阅读全文

posted @ 2012-03-20 20:48 fancing 阅读(270) 评论(0) 推荐(0) 编辑

asp实现静态页面简单剖析

摘要：实在是很简单的东西，只能给菜鸟看模版文件Template.htm<html><head><title>%TITLE%</title></head>%CONTENT%</body></html>生成静态页面文件 test.asp<%Dimfso,fDimstrTitle,strContent,strOut'创建... 阅读全文

posted @ 2010-03-21 08:39 fancing 阅读(272) 评论(0) 推荐(0) 编辑

分页,静态程序asp实现,php同理

摘要：多年前写的东西啦，拿出来充充门面，菜鸟可看，高手掠过！<html><head><TITLE>分页测试</TITLE><LINKhref="inc/style.css"type=text/cssrel=stylesheet></head><%strHe... 阅读全文

posted @ 2010-03-21 08:38 fancing 阅读(174) 评论(0) 推荐(0) 编辑

导航

2012年4月14日

2012年4月11日

2012年3月27日

2012年3月20日

2010年3月21日