信息采集-火车采集器

最近一位同事提出要采集alibaba上的公司信息,关键词是工业加湿器。

 

主管把任务分配给我后,推荐了一款软件,火车采集器(真心不是做广告)。

 

研究了两天,还算简单,除了正则表达式似懂非懂,其他都还好,也成功的采集了alibaba的信息。

 

做点笔记:

1、可视化Xpath虽然很好用,但alibaba的页面却不支持,原因不明,报错。

2、多级网址获取,会从上往下一条一条的遍历搜索,太多条的话数据量很大。

3、建议用前后提取,html代码简单明了,用firebug查看方便。

4、前后截取不一定要是标签,也可以是标签内的文字。

5、标签编辑-数据处理(添加-HTML标签排除很有用),建议全选,可以去除很多空格。

6、同样,数据处理中的替换也很有用。

7、内容过滤,可以用来排除重复的公司,设置公司名的标签不重复和非空。

8、尽可能用多页管理来进行生成分页,而不是直接进行采集,速度要快很多很多。。

9、发布内容(导出内容),免费版不让导出excel,可以在任务上右键,打开Data下任务文件夹,然后用数据库文件导出excel。

 

posted on 2013-03-26 15:55  百舸争流info  阅读(222)  评论(0编辑  收藏  举报

导航