2012年4月14日

摘要: 在不断追踪网页文本提取的技术,这篇文章中提到的做法很有实用价值! 网页由于格式千变万化,要找到一种能提取任意网页正文的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的网页类型作不同处理。另外,有人利用开源的Tidy,把不规范的网页规范化,然后利用DOM Tree,把包含正文的<talbe>...</table>提取出来,然后去除其中的链接信息。 还有一种简单的方法:对网页中的所有<table> ...</table>,计算其中所含内容中的中文标点符号,并结合内容中所包含的链接数,综合判断,以确定到底 阅读全文
posted @ 2012-04-14 09:59 fancing 阅读(2220) 评论(0) 推荐(0) 编辑
摘要: http://www.chainlt.com/?p=1018从google code下载到的.我自己又做了些修改,使其可以包含图片.123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114 阅读全文
posted @ 2012-04-14 09:41 fancing 阅读(1871) 评论(0) 推荐(1) 编辑
摘要: http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路:1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用。于是我自己写了个算法,可以把网页里的d 阅读全文
posted @ 2012-04-14 09:38 fancing 阅读(944) 评论(0) 推荐(0) 编辑
摘要: http://www.itstrike.cn/Question/1ea8e47d-cebc-4020-bff4-c03fd1b97dce思路:1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用。于是我自己写了个算法,可以把网页里的d 阅读全文
posted @ 2012-04-14 09:37 fancing 阅读(2038) 评论(3) 推荐(1) 编辑
摘要: http://www.biaodianfu.com/a-newapproach-to-content-extraction-from-web-page.htmlhttp://www.docin.com/p-131616050.html#http://hi.baidu.com/vcprogrammer/blog/item/dc8ce1c44b9d9ac638db4952.htmlhttp://blog.chinaunix.net/uid-13030755-id-2909453.htmlhttp://blog.csdn.net/tingya/article/details/601836 阅读全文
posted @ 2012-04-14 09:25 fancing 阅读(374) 评论(0) 推荐(0) 编辑

2012年4月11日

摘要: 原文地址:http://www.qiufeng.org/qi_ta_ji_shu/fan_cai_ji_ji_shu_de_yi_xie_xin_xi_shou_ji什么是泛采集:泛采集无需编写采集规则,可以通过设定的关键词,通过搜索引擎采集互联网上众多网站的内容。国外也叫 Get Main Content, Extract Useful Text from Arbitrary HTML 等.demo:http://219.153.39.48/txt/http://www.lietu.com/extract/http://www.woniu.us/get_content_demo/Some s 阅读全文
posted @ 2012-04-11 17:52 fancing 阅读(511) 评论(0) 推荐(0) 编辑

2012年3月27日

摘要: insert into xinlou_a_left select lname,lurl,lid from xinche_a_left where id in (12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47) 阅读全文
posted @ 2012-03-27 18:32 fancing 阅读(260) 评论(0) 推荐(0) 编辑

2012年3月20日

摘要: SqlServer中一个非常强大的日期格式化函数常用:SelectCONVERT(varchar(100),GETDATE(),23):2006-05-16SelectCONVERT(varchar(100),GETDATE(),0):0516200610:57AMSelectCONVERT(varchar(100),GETDATE(),1):05/16/06SelectCONVERT(varchar(100),GETDATE(),2):06.05.16SelectCONVERT(varchar(100),GETDATE(),3):16/05/06SelectCONVERT(varchar(1 阅读全文
posted @ 2012-03-20 20:48 fancing 阅读(268) 评论(0) 推荐(0) 编辑

2010年3月21日

摘要: 实在是很简单的东西,只能给菜鸟看模版文件Template.htm<html><head><title>%TITLE%</title></head>%CONTENT%</body></html>生成静态页面文件 test.asp<%Dimfso,fDimstrTitle,strContent,strOut'创建... 阅读全文
posted @ 2010-03-21 08:39 fancing 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 多年前写的东西啦,拿出来充充门面,菜鸟可看,高手掠过!<!--#includefile="conn.asp"--><html><head><TITLE>分页测试</TITLE><LINKhref="inc/style.css"type=text/cssrel=stylesheet></head><%strHe... 阅读全文
posted @ 2010-03-21 08:38 fancing 阅读(173) 评论(0) 推荐(0) 编辑