随笔分类 - [09]网络爬虫
摘要:最近在写龙龙第二版网络风行者。网络风行者引入了规则体系,简介如下: 规则主要分成两部分,一是数据匹配规则,二是数据提取规则。本文详述数据匹配规则,数据提取规则只简单提及。 我认为好的规则应该具备以下两点: (1)实用,能适用于大部分应用场合 (2)易用,容易编写与调试 我看了几个国内现有的网络信息提取软件,主要是通过制定正则表达式进行提取,适用的场景有限,主要适用于1对1的数据提取场景,既从1个...
阅读全文
摘要:现在很多网页都是由数据库自动生成的,数据分散在html代码之中:有的位于URL链接中,有的位于之中,有的位于javascript代码之中.如何挖掘这些数据为我所用?小的不才,最近写了一个网络数据库挖掘程序,挖掘了几千万条数据.源代码不能公开,这里简单述说一下设计思路和基本结构吧. 本来是用.net写的,写了几天,因为找不到好的c#的html解析器,最后还是改成了java.在这里,我尽量从语言中性的...
阅读全文
摘要:源代码(续)tree.js // Title: Tigra Tree// Description: See the demo at url// URL: http://www.softcomplex.com/products/tigra_menu_tree/// Version: 1.1// Date: 11-12-2002 (mm-dd-yyyy)// Contact: feedback@sof...
阅读全文
摘要:本系列文章主要记录在网上发现的一些优秀的Web UI设计.文章结构如下:(1) WebUI Case 编号(2) WebUI Case 名称,地址(3) 截图(4) 源代码(5) 评价(可选)下面开始第一篇:(1)WebUI Case编号: 0001(2) WebUI Case 名称: www.swt-designer.com 首页(3) 截图(4)源代码页面: SWT Designer ...
阅读全文
摘要:不带图片的文章排版程序.很容易看明白,就不多说了.LayOut函数是我写的.LTrim,RTrim,Trim是在网上找的基础上稍微改动了一点.
阅读全文