随笔分类 -  [09]网络爬虫

该文被密码保护。
posted @ 2010-03-19 16:08 xiaotie 阅读(1200) 评论(4) 推荐(2) 编辑
摘要:最近在写龙龙第二版网络风行者。网络风行者引入了规则体系,简介如下: 规则主要分成两部分,一是数据匹配规则,二是数据提取规则。本文详述数据匹配规则,数据提取规则只简单提及。 我认为好的规则应该具备以下两点: (1)实用,能适用于大部分应用场合 (2)易用,容易编写与调试 我看了几个国内现有的网络信息提取软件,主要是通过制定正则表达式进行提取,适用的场景有限,主要适用于1对1的数据提取场景,既从1个... 阅读全文
posted @ 2006-03-07 13:04 xiaotie 阅读(2785) 评论(5) 推荐(0) 编辑
摘要:现在很多网页都是由数据库自动生成的,数据分散在html代码之中:有的位于URL链接中,有的位于之中,有的位于javascript代码之中.如何挖掘这些数据为我所用?小的不才,最近写了一个网络数据库挖掘程序,挖掘了几千万条数据.源代码不能公开,这里简单述说一下设计思路和基本结构吧. 本来是用.net写的,写了几天,因为找不到好的c#的html解析器,最后还是改成了java.在这里,我尽量从语言中性的... 阅读全文
posted @ 2005-12-06 11:04 xiaotie 阅读(5547) 评论(18) 推荐(0) 编辑
摘要:源代码(续)tree.js // Title: Tigra Tree// Description: See the demo at url// URL: http://www.softcomplex.com/products/tigra_menu_tree/// Version: 1.1// Date: 11-12-2002 (mm-dd-yyyy)// Contact: feedback@sof... 阅读全文
posted @ 2005-09-30 14:11 xiaotie 阅读(1222) 评论(0) 推荐(0) 编辑
摘要:本系列文章主要记录在网上发现的一些优秀的Web UI设计.文章结构如下:(1) WebUI Case 编号(2) WebUI Case 名称,地址(3) 截图(4) 源代码(5) 评价(可选)下面开始第一篇:(1)WebUI Case编号: 0001(2) WebUI Case 名称: www.swt-designer.com 首页(3) 截图(4)源代码页面: SWT Designer ... 阅读全文
posted @ 2005-09-30 14:07 xiaotie 阅读(1806) 评论(0) 推荐(0) 编辑
摘要:不带图片的文章排版程序.很容易看明白,就不多说了.LayOut函数是我写的.LTrim,RTrim,Trim是在网上找的基础上稍微改动了一点. 阅读全文
posted @ 2005-08-12 22:10 xiaotie 阅读(2569) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示