摘要: 本次更新包含两项改进:1. 优化了设置菜单, 去掉了一些不必要的浏览器行为设置选项:取而代之的是在脚本中由用户自行设置:public void Run() { Default.CaptureNewWindow = true; //强制在本窗口打开所有页面 Default.ScriptErrorsSuppressed = true; //屏蔽JS错误 Default.AlertSuppressed = true; //禁止对话框 - Alert Default.ConfirmSuppressed = true; //禁止对话框 - Confirm Default.... 阅读全文
posted @ 2014-01-08 12:48 Ivan Zou 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 当初为了在SS中设置数据仓库这个功能, 团队中有一些争议. 主要是集中在为啥要提供这个功能, 到底有没有必要等问题上, 但最终这个功能还是上了. 相信初用者也会有同样的疑问, 我想介绍一下数据仓库的一些妙用, 也顺便为大家解析一下这个疑惑.用处1, 临时保存中间数据:以采集网易国际新闻为例. 打开http://news.163.com/world/, 可以看到这是一个列表页面, 每页有几十条新闻, 还有很多很多页. 每条新闻点开之后可以看到正文, 这个正文就是我们最终要采集的内容. 如果在一个脚本中完成刚才的流程, 会显得有点复杂, 纵使各位技术高超, 估计开始之前也要构思一番. 我推荐一个简 阅读全文
posted @ 2014-01-06 15:54 Ivan Zou 阅读(702) 评论(1) 推荐(0) 编辑
摘要: SS是Spider Studio (采集工作站) 的简称, 这是由GDT团队开发的一款互联网数据采集开发工具. 它以浏览器为基础, 运用JQuery技术, 结合脚本化C#的强大功能, 能够轻松解决各类数据采集问题.首先下载SS:http://www.gdtsearch.com/products.spiderstudio.htm安装完成后运行起来界面如下:1. 顶部菜单栏 包含浏览器地址栏, 工作区展开/折叠开关, 页面元素选择器开关, Html查看按钮, 设置和帮助菜单栏中大部分功能都很容易理解, 我重点说说 "设置" 菜单的子菜单:浏览器选项 - 打开IE的设置页, 能够 阅读全文
posted @ 2014-01-06 15:12 Ivan Zou 阅读(2356) 评论(0) 推荐(0) 编辑
摘要: 最近遇到的一个需求是如何让程序自动登录淘宝, 获取用户名称等信息. 其实这个利用SS (SpiderStudio的简称) 实现起来非常简单. 十数行代码就可以做到非常完善:1. 运行SS (下载地址), 编写脚本打开淘宝登陆页面:Default.Navigate("https://login.taobao.com/member/login.jhtml");Default.Ready();2. 找到用户名, 密码的输入框, 输入信息, 点击登录按钮:var user = Default.SelectSingleNode("#TPL_username_1") 阅读全文
posted @ 2014-01-03 00:00 Ivan Zou 阅读(6818) 评论(12) 推荐(8) 编辑
摘要: 数据仓库是集成在Spider Studio中的一个重要功能, 利用它可以非常方便的保存采集到的数据, 然后导出或者在其他脚本中再利用.数据仓库的全部功能都集成在DataManager这个静态类里面, 基本用法如下:1. DataManager.Newvoid New(string datasetName)调用此方法会创建一个名为datasetName的数据集, 注意这里datasetName是不区分大小写的. 创建的同时该数据集会自动显示在数据仓库管理器界面中, 如:public void Run(){ DataManager.New("test_data");}运行此代码 阅读全文
posted @ 2014-01-01 23:31 Ivan Zou 阅读(1187) 评论(0) 推荐(0) 编辑
摘要: >> 接前文 "示例 - 如何在Console应用程序中应用SpiderStudio生成的DLL?", 将其运用到ASP.NET中:1. 创建WebApplication项目, 引入www.utilities_online.info.XmlJsonConverter.dll2. 设置Target Framework为: .NET Framework 43. 在Default.aspx上拖放控件HTML: XMLJSON ... 阅读全文
posted @ 2013-12-26 16:50 Ivan Zou 阅读(601) 评论(0) 推荐(0) 编辑
摘要: >> 接上文 "示例 - 如何在Console应用程序中应用SpiderStudio生成的DLL?", 将其改成多线程:代码:using System;using System.Collections.Generic;using System.Linq;using System.Text;using www.utilities_online.info;using System.Threading;using System.Threading.Tasks;namespace ConsoleApplication4{ class Program { static v 阅读全文
posted @ 2013-12-26 14:28 Ivan Zou 阅读(533) 评论(0) 推荐(0) 编辑
摘要: 以前面生成的XML/JSON互转DLL为例, 我们写一个Console Appliction来做这件事情, 步骤如下:1. 创建Console Project2. 引入www.utilities_online.info.XmlJsonConverter.dll3. 将Target Framework改为: .NET Framework 44. 将Main标识为[STAThread][STAThread] static void Main(string[] args) {...}- SS生成的DLL是依赖于浏览器控件的, 它是一个ActiveX控件. ActiveX控件只能够在单线程单元(STA 阅读全文
posted @ 2013-12-26 13:56 Ivan Zou 阅读(555) 评论(0) 推荐(0) 编辑
摘要: 最近在一个POC的项目中要用到JSON和XML的相互转换, 虽然我知道很多类库如JSON.NET具备这种功能, 但是我还是另辟蹊径的使用Spider Studio结合一个在线工具网站快速实现了这个功能.在线工具网站:http://www.utilities-online.info/xmltojson必备工具: Spider Studio (采集工作站):http://www.gdtsearch.com/products.spiderstudio.htm1. 打开Spider Studio, 加载页面http://www.utilities-online.info/xmltojson/2. 通过 阅读全文
posted @ 2013-12-25 23:30 Ivan Zou 阅读(3170) 评论(7) 推荐(1) 编辑
摘要: Merry X'mas!Spider Studio本年度最后一次重大更新发生在圣诞节, 又是一次美好的巧合 :)本次更新主要包含两个重要功能:1. 引入第三方程序集在"设置"菜单下增加了一个"添加/删除程序集"的选项, 点击之后就能够添加DLL的引用, 编辑using区域, 并在脚本代码中直接使用DLL中的功能:2. 将脚本生成为DLLSpider Studio的定位是一款开发工具, 因此必须要表现得像一个开发工具 :)希望大家能够enjoy这两个功能, 特别是生成DLL, 如果能够开发些能够创收的程序我们就更开心了.最后上个图, 祝大家岁月静好 阅读全文
posted @ 2013-12-25 13:46 Ivan Zou 阅读(801) 评论(0) 推荐(0) 编辑