python爬虫-初步认识

特此声明：

http://cuiqingcai.com/

网络爬虫（Web crawler）：也叫网络蜘蛛（Web spider）,网络爬虫的基本操作就是抓取网页。

浏览网页：在火狐浏览器中打开百度www.baidu.com ，就是将浏览器作为一个’客户端‘，

向服务器发送一次请求，把服务器的文件’抓取‘到本地，再进行解释和展现.

HTML：是一种标记语言，用标签标记内容并加以解析和区分。

浏览器功能：将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

URL（Uniform / Universal Resource Locator）：称为统一资源定位符（也叫网址）

URL格式：

第一部分协议和第二部分服务器用' :// '符合隔开，第二部分服务器和第三部分路径用' / '隔开

http：是协议

zh.wikipedia.org，是服务器

80，是服务器上的网络端口号

/w/index.php，是路径

爬虫最主要的处理对象就是URL

posted @ 2015-10-31 21:46 邬家栋阅读(249) 评论(0) 编辑收藏举报

刷新页面返回顶部