第一次爬虫和测试

一、requests库的get()函数访问必应主页20次，打印返回状态，text()内容，计算text()属性和content属性所返回网页内容的长度。

1>返回状态。

常见的几个状态码：

200 – 服务器成功返回网页
404 – 请求的网页不存在
301 – 资源（网页等）被永久转移到其它URL
500 – 服务器内部错误

代码如下：

import requests
from bs4 import BeautifulSoup
def JudgeState(r):
    x = r.status_code
    print("获得响应的状态码:", x , end="")
    if x == 200 :
        print("------请求成功")
    if x == 301:
        print("----资源（网页等）被永久转移到其它URL")
    if x == 404:
        print("----请求的资源（网页等）不存在")
    if x == 500:
        print("------内部服务器错误")
    return ''
r = requests.get("https://cn.bing.com/",timeout = 30)
for i in range(1,21):          #访问必应网站20次，查看连接状态
    print("第{}次".format(i))
    JudgeState(r)

　　1.1运行结果：

2>text（）内容·【网页html代码】

　　使用如下函数即可获得text内容：

def GetHTMLText(url):
    try :
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = "utf-8"
        return  r.text
    except:
        return ""

完整代码：

import requests
from bs4 import BeautifulSoup
def GetHTMLText(url):
    try :
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = "utf-8"
        return  r.text
    except:
        return ""

url = "https://cn.bing.com/" 
r = GetHTMLText(url)
print(r)

　　1.2部分运行结果：

3>计算text()属性和contents()属性所返回网页内容的长度

代码如下：

import requests
from bs4 import BeautifulSoup

url = "https://cn.bing.com/"
r = requests.get(url,timeout = 30)
r.encoding = "utf-8"
print("text属性返回的网页内容长度：{}".format(len(r.text)))
print("content属性返回的网页内容长度：{}".format(len(r.content)))

　　1.3运行结果：

二、完成对简单的html页面的相关计算要求。

【html页面如下】要求获取其中的head、body，id为first的标签内容。

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body>
    <h1>我的第一个标题</h1>
    <p id=first>我的第一个段落。</p >
</body>
        <table border="1">
    <tr>
        <td>row 1, cell 1</td>
        <td>row 1, cell 2</td>
    </tr>
    <tr>
        <td>row 2, cell 1</td>        
        <td>row 2, cell 2</td>        
    </tr>
</table>
</html>

相关操作如下：（ps:根据作业要求，小编先将该html代码储存到电脑上，用打开文件方式打开该html）

import requests
from bs4 import BeautifulSoup
 
f = open("D:\\桌面\\pytest\\test.html",'r',encoding="utf-8")
r = f.read()
f.close()

soup = BeautifulSoup(r,"html.parser")
print("(1)head标签:\n",soup.head)
print("(2)body标签内容:\n",soup.title)
print("(3)id为first的标签对象:\n",soup.find(id='first'))
print("(4)获取该html中的中文字符:",soup.title.string,soup.find('h1').string,\
    soup.find(id='first').string)

　　运行结果如下：

　　在解决（4）时，小编使用的是提取标签内容的方法，显然结果存在错误。百度查找，得到以下解决方法：

import requests
from bs4 import BeautifulSoup
f = open("D:\\桌面\\pytest\\test.html",'r',encoding="utf-8")
r = f.read()
f.close()
soup = BeautifulSoup(r,"html.parser")

import re
#使用正则匹配来获取html字符串的中文字符,依据汉字的Unicode码表: 从u4e00~u9fa5, 即代表了符合汉字GB18030规范的字符集
pattern = re.compile(r'[\u4e00-\u9fa5]+')
result = pattern.findall(r)

print("中文字符：",result)

结果如下：

三、爬中国大学排名网站内容，并存为csv。

要求获取如下图的数据：

具体代码如下：

# 中国大学排名.py
import requests
from bs4 import BeautifulSoup
def GetHTMLText(url):
    try :
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = "utf-8"
        return  r.text
    except:
        return ""
def FindUnivList(soup):
    data = soup.find_all('tr')
    
    lth = data[0].find_all('th')          #通过查看网页html代码，找到第一个'tr'标签下的'th'标签就是表格标题。
    thead = []
    for th in lth[:4]:                      #前四个表格标题（第五个特殊，下面处理）
        thead.append(th.string)
    tOptions = data[0].find_all('option')     #处理第五个特殊的表格标题
    for tOption in tOptions:                 
        thead.append(tOption.string)
    allUniv.append(thead)
    
    for tr in data:                         #获取数据内容
        ltd = tr.find_all('td')
        if len(ltd) ==  0:
            continue
        tbodies = []
        for td in ltd:
            if td.string is None:           #对无数据内容处理
                tbodies.append('')
                continue
            tbodies.append(td.string)
        allUniv.append(tbodies)


def main():
    url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
    html = GetHTMLText(url)
    soup = BeautifulSoup(html,"html.parser")
    FindUnivList(soup)
    #储存为csv
    f = open('2019中国大学排名.csv','w',encoding='utf-8')
    for row in allUniv:
        f.write(','.join(row)+'\n')
    f.close()

allUniv = []
main()

关于在获取数据时，对于无数据内容的处理：

　　例如，某所大学的得分指标没有（不存在），这时如果不进行处理就会出现如下错误

　　TypeError: sequence item 5: expected str instance, NoneType found

　　具体解决方法见上述代码。

　　结果如下：（只显示部分）

posted @ 2020-05-17 18:32 玩的三立方阅读(241) 评论(0) 编辑收藏举报

刷新页面返回顶部

ShadowLand

第一次爬虫和测试

公告