数据采集与融合第一次~第三次作业

第一次作业

作业分析
- 第一次作业是爬取大学的排名，依旧是老办法打开 F12，那么可以发现每个大学信息和排名的位置都位于 td 标签内，再寻找一下他们的父标签是 tbody ，那么思路很清晰直接调用
  bs4 库配上属性值找到包含大学排名信息的 tbody 标签，调用 children 方法并且在子标签内找到 td 标签，提取相关的文本信息，第一题就大功告成~
爬取结果
相关代码

import requests,bs4
bsobj = bs4.BeautifulSoup(requests.get("http://www.shanghairanking.cn/rankings/bcur/2020",headers={"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36 Edg/85.0.564.51"}).content.decode(),"html.parser")
print("排名  学校名称  省市  学校类型  总分")# 爬取太多次会被限制爬取，所以想要爬多次的话需要每次都更换headers
for child in bsobj.find("tbody").children:
    info = child.find_all("td")
    print(info[0].text.strip()+"    "+info[1].text.strip()+"    "+info[2].text.strip()+"    "+info[3].text.strip()+"    "+info[4].text.strip())

代码分析
- 代码十分容易理解并且精悍简短（误），虽然加上了headers伪装成浏览器，但是遇到下一个作业有着强大反爬功能的 alibaba 就连 selenium 也都束手无策（提前剧透）。
  本代码的缺点是，输出排名的时候不够美观，比如没有对齐~

第二次作业

啊哈这么快就来到第二次作业了，一开始的爬取淘宝商品页可真是个脑力体力活，先不说能不能让我的可爱 spider 到达淘宝的页面，每次都跳出登陆提示所以想爬取淘宝页面真的想 peach。
既然 bs4 已经不能简单满足我爬取淘宝商品页的欲望，那么我就自然而然的想到当初爬取网易云时用的 selenium ，也就是模仿人点击浏览器的行为去爬取淘宝，正当小爷我美滋滋的写完代码运行的时候，发现绕过登录后居然还要拖动滑块验证，运行多次发现淘宝的 JS 已经出了检测 selenium 的功能了... 毫无头绪的我只能转战欺负某东 QAQ 。

selenium 简介
- Selenium 是一个用于 Web 应用程序测试的工具，Selenium 直接运行在浏览器中，就像真正的用户在操作一样。由于这个性质，Selenium 也是一个强大的网络数据采集工具，
  其可以让浏览器自动加载页面，这样，使用了异步加载技术的网页，也可获取其需要的数据。
  但是呢，Selenium 需要下载相应浏览器的 webdriver ，才能通过本机的浏览器访问目标页面。Selenium 和 PhantomJS 的配合使用可以完全模拟用户在浏览器上的所有操作，包括输入框内容填写、单击、截屏、下滑等各种操作。这样，对于需要登录的网站，用户可以不需要通过构造表单或提交 cookie 信息来登录网站。
附上selenium 爬取的部分代码

class taobaospider():
    def __init__(self):
        self.browser = webdriver.Chrome()
        # 最大化窗口
        self.browser.maximize_window()
        self.browser.implicitly_wait(5)
        self.domain = 'http://www.taobao.com'
        self.action_chains = ActionChains(self.browser)

    def login(self, username, password):
        while True:
            self.browser.get(self.domain)
            time.sleep(1)
            self.browser.find_element_by_xpath('//*[@id="J_SiteNavLogin"]/div[1]/div[1]/a[1]').click()
            self.browser.find_element_by_xpath('//*[@id="fm-login-id"]').send_keys(username)#输入用户名
            self.browser.find_element_by_xpath('//*[@id="fm-login-password"]').send_keys(password)#输入密码
            time.sleep(1)

好的进入正题，先给出爬取某东书包商品页的结果~

相关代码

def get_Html_And_Parse():
    # get html content
    try:
        html = requests.get(url,headers = headers)
        html.encoding = html.apparent_encoding
        html = html.text
    except:
        print("get url wrong")

    # process of parsing
    message = []
    try:
        soup = bs4.BeautifulSoup(html,"html.parser")
        info_list = soup.find_all("li",{"data-sku":re.compile("\d+")})# 所有的商品信息都在满足该条件的li标签中
        print(len(info_list))
        for ms in info_list:
            price = ms.find("div",{"class":"p-price"})
            name = ms.find("div",{"class":"p-name p-name-type-2"}).find("em")
            message.append([name.text.strip() + "  " + price.text.strip()])
    except:
        print("something wrong")

    for info in message:
        print(info)

get_Html_And_Parse()

代码说明
- 爬取网站：京东；此代码只选择爬取第一页，因为翻页的话 HTML 源代码没有给出 hyperlink 而是通用调用 JS 来监控鼠标或者键盘从而跳转到下一页
  但是之后发现翻到第二页在网页的 url 中有 page 字段如果，所以要爬取多页需要建立循环传入不同的 page ,只需要把从第二页开始的带 page 的 url 传入并修改即可。
  问题：爬取整个页面的 li 标签发现只有30个商品，但总共有60个，就算提取母标签再来取出商品也是只有 30 个。如果想要爬取全部信息的话需要循环调用
  get_Html_And_Parse 函数，解析 JS ，翻页的按钮在 a 标签中，只要判断 a 标签的 class 为 pn-next disabled 即跳转到了最后一页。
  还有一个问题就是，对商品的处理不够细致，打印出来的信息存在换行符。

第三次作业

作业分析
- 第三次作业算是比较简单的作业，因为作业要求仅仅只是爬取给定页面的图像页面，那么思路非常清晰而且简单，只要用正则找到图片的超链接然后存储下来再进行访问即可。
  所以先用正则来匹配图片的后缀，只要成功就 append 进 list。但是呢，你会发现 HTML 中图片是没有超链接的，果不其然，打开 networks 模块你会发现所有的图片都是
  通过JS加载过来的。好家伙，我以为这又是一场高端局，点开其中一个文件，心里突然笑嘻嘻了，请求的 url 恰好是图片的链接，也就是网页名+图片名，那么解决思路呼之欲出，
  只需要在图片前缀加上网站名即可。
爬取结果
相关代码

import bs4,requests,re
import os

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36 Edg/85.0.564.51"}
url = "http://xcb.fzu.edu.cn/"
def get_Html_And_parsing(url):
    all_img = []
    try:
        #获取并且解析页面
        html = requests.get(url,headers=headers)
        html = html.content.decode()
        soup = bs4.BeautifulSoup(html,"html.parser")
        img_list = soup.find_all("img",{"src":re.compile("(.+)\.(png|jpg)")})
        for img in img_list:
            img_name = img.attrs["src"]
            if str(img_name).startswith("http"):
                continue
            complete_img_url = url[:len(url)-1]+img_name
            all_img.append(complete_img_url)
    except:
        print("get url wrong")
    return all_img

def write_Into_FileFolder(img_list):
    # 把读取到的链接中的文件写到本地
    for img_url in img_list:
        img_content = requests.get(img_url,headers = headers).content
        with open("jpg_filefolder/"+img_url[-8:-4]+".jpg","wb") as f:
            # 取url的倒数第八到第四的字符串当文件名
            f.write(img_content)



if __name__ == "__main__":
    if not os.path.exists("jpg_filefolder"):
        os.mkdir("jpg_filefolder")
    img_list = get_Html_And_parsing(url)
    write_Into_FileFolder(img_list)

作业拓展与优化
- 我们可以想想，现在作业的要求只是爬取一个页面，但是如果要爬取一个网站的所有页面下的图片呢？
- 思路：
  先创建一个集合来保存爬取到的 url ，目的是为了进行去重，接下来通过 dfs 来遍历到站点内的所有网页再提取图片。但是这样还是有一个很大的问题，
  首先难以解决服务器的问题，你的内存资源是否够用以及能否存下如此多的信息？第二个问题就是你的速度问题，如果站点网页太多，那么可能深搜的
  时间复杂度就太高了，所以集合的目的就是为了防止重复访问相同的站点。第三个问题就是如果只用你个人的 IP 爬取，如果爬取太多被检测到会被封 IP，
  所以你需要一个够大的 IP 代理池。
- 优化：
  其实可以创建一个多进程爬虫来加速你的爬取页面处理数据的速度，因为python的多线程是假的多线程，被加了GIL锁，所以开了和没开一样~
  多进程爬取的步骤和把大象放进冰箱的步骤一样：
  1.先创建一个进程池
  2.把要处理的东西丢给进程池中的进程
  3.关闭进程池
  具体代码下次实现Hhhhh...

总结

前三次作业主要是考察对 beautifulsoup 和 re 库的运用，也就是搜索+查找。这也是一个较为普遍的应用，接下来希望进一步拓展爬虫技能，继续熟悉 selenium 和
学习 scrapy,造出更猛更安全的爬虫 hhhhh

posted @ 2020-09-28 09:31 King_James23 阅读(188) 评论(0) 编辑收藏举报

刷新页面返回顶部

King_James23

数据采集与融合第一次~第三次作业

第一次作业

第二次作业

第三次作业

总结

公告