import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = 'utf-8' return r.text except: return '' def fillTestList(tlist, html): soup = BeautifulSoup(html, 'html.parser') meta = soup.find_all('meta', attrs={'name': 'description'}) tlist.append(meta[0].attrs['content']) def main(): start_url = 'http://www.runoob.com/python/python-exercise-example' tinfo = [] for i in range(101): url = start_url + str(i) +'.html' try: html = getHTMLText(url) fillTestList(tinfo, html) except: continue for i in range(101): try: with open('100.txt', 'a') as f: f.write(uinfo[i] + '\n') except: continue print(tinfo) main()
昨晚时间非常紧张,搞到半夜快十二点了,匆匆把代码发上来没有来得及整理。
最近学了爬虫,总觉得自己已经会了很多,可是实际上手操作的时候才发现原来很多问题都不是简简单单那么回事情。在知乎上看到有人发言,大神学霸级别的人物在两天之内刷完了200道编程作业题,感慨自己真的是超级大学渣。于是乎在网上搜索关于编程题目的网页,查到了有一个的网站质量还是可以的,于是就用上几周学到的知识准备把这些东西都爬出来。
1.整体思路
获取网页内容:getHTMLText(url)
分析内容信息并提取题目到一个列表:fillTestList(tinfo, html)
2.用到的知识点笔记
a.网络爬虫框架getHTMLText(url)可以背一下
b.指定网页编码方式,使获取过程更加流畅
r.encoding = 'utf-8' 这种方式比 r.encoding = r.apprent_encoding 更加迅速,因为在<header>标签中可以看到网页编码方式是utf-8
c.BeautifulSoup中按照标签属性进行查找信息的方式
soup.find_all(‘name', attrs = {'name':'description'})
后面是一个属性的字典
d.写入文件的方式
with open('100.txt', 'a') as f: f.write(uinfo[i] + '\n')
文件绝对路径:'D:/100.txt',
读写方式:’r'只读,'w'复写,'a'追加,'rb'二进制读取,'wr'二进制写入
f.write()参数中只能是一个字符串,不能是列表或者字典之类的,自动换行可以在句尾加上'\n',这里就是字符串相加的方法
e.错误的处理
try...except...的应用,在循环处理当中,如果不在乎单个的循环节,可以用continue进行处理