2012 年 12月 7 日随笔档案 - 黄聪

2012年12月7日

摘要：抓取网页的一般逻辑和过程一般普通用户，用浏览器，打开某个URL地址，然后浏览器就可以显示出对应的页面的内容了。这个过程，如果用程序代码来实现，就可以被称为（用程序实现）抓取网页（的内容，并进行后期处理，提取所需信息等）对应的英文说法有，website crawl/scrape/data mining。而用来抓取网页的工具，也常被叫做 spider，crawler等。即，一般所谓的取网页内容，指的是通过程序（某种语言的程序代码，比如Python脚本语言，C#语言等）实现访问某个URL地址，然后获得其所返回的内容（HTML源码，Json格式的字符串等）。而对于这个抓取网页的过程，是有一套自己的逻辑阅读全文

posted @ 2012-12-07 16:41 黄聪阅读(5574) 评论(1) 推荐(1) 编辑

黄聪

公告