自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。
BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。
下面是临时的代码,后续还会继续完善。
1 # coding=utf-8
2 import requests
3 from bs4 import BeautifulSoup
4
5 page = 1
6 url = 'http://www.qiushibaike.com/hot/page/' + str(page)
7 try:
8 res=requests.get(url)
9 # print res.text # 如果请求成功,下载的网页就作为一个字符串,保存在相应的text变量中,这就是为什么用res.text。
10 except Exception as e:
11 print '打开网页出现异常:',e
12
13 try:
14 soup=BeautifulSoup(res.text,'html.parser')
15 elms=soup.select('.content') #这里产生一个列表
16 for elm in elms:
17 print elm.text
18 except Exception as e:
19 print '解析出现异常:',e
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步