python学习之——利用urllib2抓取网页内容
简单的抓取程序
#!/usr/bin/env python
#-*- coding:utf-8 -*-
import sys
import urllib2
wp = urllib2.urlopen('http://lvyou.baidu.com')
content = wp.read()
fp = open('index.html','w')
fp.write(content)
fp.close()
通过抓取的内容可以进行内容的提取。这个还需要学习