随笔分类 -  Spider Studio

数据挖掘, Web采集, 蜘蛛程序, 搜索引擎, 大数据, 数据分析
摘要:2013-12-1版本更新, 包含如下改动:1. 修复BrowserManager重复初始化的bug;2. 大幅提高节点选择器性能:以网页http://data.sports.sohu.com/nba/nba_schedule_by_month.php?m=2013-10&season_year=2013 为例, 原来版本选择如下节点要等待大概1分钟:改进后只需要大概5秒钟. 因此这个功能变得更加实用了!3. 提供JQueryContext.Focus功能:本功能可以将焦点设置到选定的页面元素上.4. 改进产品页面, 直接内嵌技术博客, 观看更加方便 :) 阅读全文
posted @ 2013-12-01 22:34 Ivan Zou 阅读(471) 评论(0) 推荐(0) 编辑
摘要:目前发现两个已知问题暂时无法得到解决:1. QQ空间问题.打开页面http://user.qzone.qq.com/822994792/311, 点击 "xxx人赞" 这个链接会弹出一个小界面, 上面应该显示所有赞过的人. 但是在SS中一直会处于"加载中..."的状态, 卡在那里. 经过检查这是一个IE10的WebBrowser控件问题, 暂时无法得到解决.2. EXTJS的兼容性问题.打开页面 cms.cutt.com, 创建一边新文章, 发现标题, 正文等页面控件能够被选中, 但是无法操作. 原因是这些控件都由EXTJS生成, 而JQuery和EXT 阅读全文
posted @ 2013-11-30 12:28 Ivan Zou 阅读(505) 评论(0) 推荐(0) 编辑
摘要:在最近的数据采集研究中, 发现很多页面的内容都是在iframe中的, 这位采集带来了不少困难. 经过一番思考之后, 我想到了C#的解决办法:1. 运行Spider Studio, 加载页面http://www.w3school.com.cn/tiy/t.asp?f=html_iframe2. 编辑代码, 将iframe指向http://www.w3school.com.cn3. 这个页面具备如下结构:Page > IFrame1 -> IFrame2 (就是我们代码中写的那个IFrame)我的目标是通过C#代码先获取IFrame1的内容, 然后继续获取IFrame2的内容, 继而设 阅读全文
posted @ 2013-11-28 23:24 Ivan Zou 阅读(10387) 评论(5) 推荐(1) 编辑
摘要:最近 @甜瓜 (QQ:1069629945)开发了一套NBA数据采集脚本, 我觉得很赞. 经他允许发布出来和大家分享一些经验:球员球队:http://data.sports.sohu.com/nba/nba_team_info.php?teamid=1 .. 30在1到30的循环中抓取球队信息, 球员信息并用id将其关联起来, 脚本如下:public void Run(){ Logger.ClearAll(); for(int i=1; ih2>span"); Logger.Log(teamname.Text()); var teamurl = Defa... 阅读全文
posted @ 2013-11-28 00:15 Ivan Zou 阅读(1311) 评论(0) 推荐(0) 编辑
摘要:最近有朋友想要采集优酷的视频标题和缩略图 (哈哈, 并非商业目的). 找到我帮忙, 考虑到有我刚刚发布的SpiderStudio, 我毫不犹豫的答应了.首先在网页上视频的基本结构为:div.v - div.v-meta-title //标题 - div.v-thumb / img //缩略图对应的JQuery表达式为:$("div.v").find("div.v-meta-title");$("div.v").find("div.v-thumb img");然后运行SpiderStudio, 编写相关脚本:publ 阅读全文
posted @ 2013-11-23 21:06 Ivan Zou 阅读(2163) 评论(1) 推荐(1) 编辑
摘要:在编写Spider Studio脚本时, Default对象是最常用最重要的一个, 其类型定义如下:Webus3.Spider.Controls.JQueryBrowser Default;下面介绍它的基本用法:1. Navigatevoid Navigate(string urlString)使浏览器打开指定urlString指定的网页.2. Readyvoid Ready()主页面加载完成即返回. 如果页面采用ajax进行异步加载, Ready不会刻意等待所有ajax数据加载完成, 此时请用 bool Ready(string jqueryExpression).3. Ready - 针对 阅读全文
posted @ 2013-11-22 18:02 Ivan Zou 阅读(1401) 评论(0) 推荐(0) 编辑
摘要:先前的示例讲过了如何自动在百度搜索并提取结果. 现在基于上次的脚本添加翻页的功能:上次的脚本:public void Run(){ Default.Navigate("http://www.baidu.com"); Default.Ready(); Default.SelectSingleNode("#kw").Attr("value", "hello world!"); Default.SelectSingleNode("#su").Click(); Default.Reset(); Defa 阅读全文
posted @ 2013-11-20 15:09 Ivan Zou 阅读(1067) 评论(1) 推荐(0) 编辑
摘要:1. 让浏览器打开www.baidu.com, 并等待页面加载完毕:Default.Navigate("http://www.baidu.com");Default.Ready();2. 选择搜索框:选择框位置有点不对, 但不影响使用. 得到搜索框#kw, 然后用同样方式得到"百度一下"按钮#su.3. 输入关键词, 搜索:Default.SelectSingleNode("#kw").Attr("value", "hello world!");Default.SelectSingleNode( 阅读全文
posted @ 2013-11-19 17:09 Ivan Zou 阅读(1249) 评论(3) 推荐(2) 编辑
摘要:Spider Studio (采集工作站) 产品页面:http://www.gdtsearch.com/products.spiderstudio.htmQQ群:45995410 - 有人驻场解答技术问题.相关技术文章:http://www.cnblogs.com/iamzyf/category/498344.html 阅读全文
posted @ 2013-11-19 16:20 Ivan Zou 阅读(1071) 评论(2) 推荐(0) 编辑