【03】基础:同种网页结构套用采集规则
请先安装爬虫软件。爬虫软件安装
经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。
回顾一下,上个教程主要了解了MS谋数台的工作职责-定义采集规则,测试规则无误之后点击MS谋数台右上角的“爬数据”后弹出DS打数机,然后看到打数机窗口正在马不停蹄地抓取数据。这两个部件的工作配合地很紧密。
在学会将xml文件转成Excel之前,先解决当下的一个疑问?如果要采集其他博主主页的微博,是要重新做过规则吗?非也~
用MS谋数台制定采集规则用了一个样本网址,既然是样本,可想而知,与样本相同结构的网页,都可以套用该规则进行采集了。
为一个采集规则添加一个相同结构的网址就是给该规则添加一个线索。
以后用该规则抓取数据的时候就会运行所有的线索而不仅仅是样本网址。
前一个教程采集微博博主主页是将宝宝主页的网址作为样本网址来制定采集规则的。宝宝之前参加过很火的《奔跑吧兄弟》,现在我想采集兄弟团所有成员的微博主页,只要将他们主页网址当成新的线索添加给之前做的“weibo_博主主页”采集规则就OK了。
怎么添加线索?
第一季兄弟团各个成员的主页网址如下:
- 学霸邓超:http://weibo.com/dengchao?profile_ftype=1&is_all=1#_0
- 大黑牛李晨:http://weibo.com/lichenlichen?profile_ftype=1&is_all=1#_0
- 女汉子Angelababy:http://weibo.com/realangelababy?profile_ftype=1&is_all=1#_0
- 陈赤赤:http://weibo.com/chenhe09?profile_ftype=1&is_all=1#_0
- 猎豹郑恺:http://weibo.com/spiderx?profile_ftype=1&is_all=1#_0
- 完美王祖蓝:http://weibo.com/u/1730330447?profile_ftype=1&is_all=1#_0
先进入集搜客官网,登录后点击右上角自己的用户名之后进入会员中心>爬虫管理>规则管理,点击主题名,进入线索管理页面。
看到“weibo_博主主页”下只有样本网址这一条线索。
单条添加
点击“添加线索”,输入线索网址后保存。
批量添加
用Excel存储线索网址
点击“批量导入线索”,添加附件,点击“批量导入”后添加成功!
添加了6条,加上原来的一个样本网址,总共7条线索,现在都是“待抓取”状态。
在这个页面,除了添加线索、还可以激活、去活以及删除线索。
如何运行线索?
运行采集规则就是运行规则里头的线索。
由上图可知,现在“weibo_博主主页”这个规则中有7条线索,都是“待抓取”状态。运行这些线索要在DS打数机启动。
打开DS打数机,搜索出要运行的规则,点击“单搜”或者“集搜”都可以启动DS打数机进行抓取数据。
单搜:在当前DS窗口采集;集搜:弹出新的窗口采集。
点击集搜后,待抓取线索有几条就输入几条,点击确定。
我们看到DS打数机马上在运行抓取了。
如果不知道待抓取线索有多少条,在DS打数机右击统计线索就可以了。
如何激活线索?
刚刚运行了“weibo_博主主页”这个采集规则,在会员中心看到这7条线索都是“抓取完成”的状态。
如果按上面的步骤在DS打数机中再次运行规则,这时候会提示没有线索了,那是因为刚刚已经运行这7条线索了。
要重新抓取这些线索只要重新将这些线索激活就可以了,激活以后这些线索的状态将会变成“待抓取”。
激活有两种方法——
规则管理激活
在规则管理选择要激活的线索后点击“激活”按钮。
DS窗口激活
到这里,看看刚刚运行“weibo_博主主页”这个采集规则的结果文件吧~
下一期将讲结果文件转成Excel,学完下一期你就已经入门了,只要不是复杂的网页你都可以采集了,所向披靡,是不是很激动。