摘要: 当初为了在SS中设置数据仓库这个功能, 团队中有一些争议. 主要是集中在为啥要提供这个功能, 到底有没有必要等问题上, 但最终这个功能还是上了. 相信初用者也会有同样的疑问, 我想介绍一下数据仓库的一些妙用, 也顺便为大家解析一下这个疑惑.用处1, 临时保存中间数据:以采集网易国际新闻为例. 打开http://news.163.com/world/, 可以看到这是一个列表页面, 每页有几十条新闻, 还有很多很多页. 每条新闻点开之后可以看到正文, 这个正文就是我们最终要采集的内容. 如果在一个脚本中完成刚才的流程, 会显得有点复杂, 纵使各位技术高超, 估计开始之前也要构思一番. 我推荐一个简 阅读全文
posted @ 2014-01-06 15:54 Ivan Zou 阅读(702) 评论(1) 推荐(0) 编辑
摘要: SS是Spider Studio (采集工作站) 的简称, 这是由GDT团队开发的一款互联网数据采集开发工具. 它以浏览器为基础, 运用JQuery技术, 结合脚本化C#的强大功能, 能够轻松解决各类数据采集问题.首先下载SS:http://www.gdtsearch.com/products.spiderstudio.htm安装完成后运行起来界面如下:1. 顶部菜单栏 包含浏览器地址栏, 工作区展开/折叠开关, 页面元素选择器开关, Html查看按钮, 设置和帮助菜单栏中大部分功能都很容易理解, 我重点说说 "设置" 菜单的子菜单:浏览器选项 - 打开IE的设置页, 能够 阅读全文
posted @ 2014-01-06 15:12 Ivan Zou 阅读(2356) 评论(0) 推荐(0) 编辑