摘要:
抓取网页的一般逻辑和过程一般普通用户,用浏览器,打开某个URL地址,然后浏览器就可以显示出对应的页面的内容了。这个过程,如果用程序代码来实现,就可以被称为(用程序实现)抓取网页(的内容,并进行后期处理,提取所需信息等)对应的英文说法有,website crawl/scrape/data mining。而用来抓取网页的工具,也常被叫做 spider,crawler等。即,一般所谓的取网页内容,指的是通过程序(某种语言的程序代码,比如Python脚本语言,C#语言等)实现访问某个URL地址,然后获得其所返回的内容(HTML源码,Json格式的字符串等)。而对于这个抓取网页的过程,是有一套自己的逻辑 阅读全文