摘要: Spider Studio 数据挖掘集成开发环境(最新版本: 2.7.12.1)传统的多线程蜘蛛程序虽然采集速度快, 但是明明不需要所有内容, 却胡子眉毛一把抓, 将整个网页都下载下来当作一个文本进行处理. 由于网页内容参差不齐, 所以抓取质量常常无法保证; 在面对由ajax等动态技术呈现的信息时更是束手无策. 自从所见即所抓技术发明之后, 这一切便得到了改观. Spider Studio 以所见即所抓为核心, 以脚本的方式来完成抓取, 并且提供了大量辅助功能.功能特点1. C# 脚本化抓取比如下面这段代码会打开本页并将产品简介提取出来显示在对话框中.更多脚本使用信息请查看所见即所抓脚本指南2 阅读全文
posted @ 2013-11-19 21:51 疯吻IT 阅读(1147) 评论(0) 推荐(0) 编辑