使用集搜客爬取酷狗排行歌曲信息

    最近项目中遇到需要大量爬取歌曲数据的需求,且需要爬取歌曲的网站比较多,自己写爬虫显然开发成本很高,所以找了个集搜客来用。

1.安装教程可以自行百度,基本都是直接下一步,不过这个软件需要.net4.0的支持这里给个官网的连接.net framework
2.打开软件,输入网址,这里以酷狗为例,在地址栏输入地址http://www.kugou.com/yy/html/rank.html这里写图片描述
3.点击指定规则,输入主题名和网址,主题名是保存在该软件唯一的自己写就可以,输入完成点击查重,提示可用即可,如果不可用换一个即可
这里写图片描述
4.在工作台切换到创建规则tab页,点击新建,输入整理箱名,这里可以把整理箱看成一个没有任何作用的容器
这里写图片描述
5.右击酷狗->添加->包容
这里写图片描述
6.输入要抓取的内容,并点击关键内容连接(勾选该按钮,没有链接的歌曲会被过滤)
这里写图片描述
这里写图片描述
7.映射相应关系这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
8.上边已经完成一条数据的映射,需要把他当做一个模板这里写图片描述
9.选择另一条数据的任意元素,映射为第二条
这里写图片描述
10.点击测试
这里写图片描述
11.点击右上角的存规则->爬数据
这里写图片描述
12.大功告成,去本地找数据吧
C:\Users\fxl\DataScraperWorks\kugou_paihang_fxl下的xml文件就是你需要的数据

posted @ 2018-05-09 12:19  大于吃小于  阅读(298)  评论(0编辑  收藏  举报