Python 爬虫入门

爬虫,也就是网络爬虫。将互联网当做大的蜘蛛网,我们的程序就是模拟蜘蛛去获取蜘蛛网上的信息。

翻译为计算机语言就是:  模拟浏览器发送请求(配置好相应的请求头, url, cookies)

            解析拿到的html, dom,做数据填充, 固定的数据格式

 

所以在写爬虫之前需要明确:爬取目标, 爬取后要整理成什么样的数据结构

  需要一些浏览器的基本知识,如F12,network,页面元素,cookie

然后就来写爬虫(前提是python环境已经搭建好):

醉醉简单的爬虫:

 

import urllib

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

html = getHtml("。。。。。")

print html

 

posted on 2018-01-25 18:38  爱老虎哟  阅读(173)  评论(0编辑  收藏  举报

导航