练手爬虫用urllib模块获取

有个人看一段python2的代码有很多错误

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist 

html = getHtml("https://zwk365.com") //攒外快网
print getImg(html)

修改后python3的代码

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url) #获取网站
    html = page.read() #内容读取,返回的html是字节的格式
    return html

def getImg(html):
    # print(str(html,encoding='utf8'))   #内容以爬下来为准而不是网站上的
    reg = 'data-original="(.*?)"'  #设置下内容的re格式
    imglist = re.findall(reg,str(html,encoding='utf8'),re.S)
    return imglist

html = getHtml("https://zwk365.com")
print(getImg(html))

posted @ 2019-08-09 11:36 小小咸鱼YwY 阅读(870) 评论(8) 收藏举报

刷新页面返回顶部

加载时间中.....

Python 前端 爬虫 数据库 Django Flask 微信小程序 Linux Go

练手爬虫用urllib模块获取

练手爬虫用urllib模块获取

修改后python3的代码

公告

加载时间中.....

Python 前端 爬虫 数据库 Django Flask 微信小程序 Linux Go

练手爬虫用urllib模块获取

练手爬虫用urllib模块获取

修改后python3的代码

公告

Python 前端爬虫数据库 Django Flask 微信小程序 Linux Go