2023数据采集与融合技术实践第三次作业

作业①：

要求：

指定一个网站，爬取这个网站中的所有的所有图片，例如：中国气象网（http://www.weather.com.cn）。使用scrapy框架分别实现单线程和多线程的方式爬取。
–务必控制总页数（学号尾数2位）、总下载的图片数量（尾数后3位）等限制爬取的措施。

输出信息：

将下载的Url信息在控制台输出，并将下载的图片存储在images子文件中，并给出截图。

代码：

单线程

MySpider.py

class MySpider(scrapy.Spider):
    name = 'MySpider'
    start_urls = ['http://www.weather.com.cn/']
    def parse(self, response):
        src = response.xpath('//img/@src').extract()
        img = Work1Item(src=src)
        yield img

pipelines.py

class Work1Pipeline2:

    def process_item(self,item,spider):
        urls = item.get('src')
        num = 1
        for url in urls:#遍历图片并保存
            filename = 'D:/DATASET/images/' + str(num) + '.jpg'
            print('第'+str(num)+'张图片:'+url)
            urllib.request.urlretrieve(url=url,filename=filename)
            num+=1
        return item

settings.py

REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"
IMAGES_STORE = r'D:\DATASET\images'
ITEM_PIPELINES = {
'work1.pipelines.Work1Pipeline2': 300,
}
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.16 Safari/537.36',
}

多线程

在MySpider.py加上如下语句

    def __init__(self, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.executor = ThreadPoolExecutor(max_workers=4)

    def process_request(self, request, spider):
        # 利用线程池异步发送请求
        self.executor.submit(spider.crawler.engine.download, request, spider)

在settings.py加上如下语句

DOWNLOAD_DELAY = 0
CONCURRENT_REQUESTS = 100
CONCURRENT_REQUESTS_PER_DOMAIN = 100
CONCURRENT_REQUESTS_PER_IP = 100
COOKIES_ENABLED = False

输出结果：

由于天气网整个页面只有48张图片，于是爬取亚马逊网站

代码：

MySpider.py（有修改的部分）

    for i in range(1,3):#学号后两位是02，于是爬取两页
        url = f"https://www.amazon.cn/s?k=%E4%B9%A6%E5%8C%85&page={i}&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&crid=1RAID9NTPCARM&qid=1698238172&sprefix=%E4%B9%A6%E5%8C%85%2Caps%2C154&ref=sr_pg_{i}"
        start_urls.append(url)

    def parse(self, response):
        src = response.xpath('//img/@src').extract()
        #print(src)
        img = Work1Item(src=src)
        yield img

pipelines.py

class Work1Pipeline2:
    def __init__(self):
        self.counter=1
    def process_item(self,item,spider):
        urls = item.get('src')
        urls.pop()#去除最后一个元素
        urls.pop(0)#去除第一个元素
        #print(urls)
        for url in urls:
            filename = 'D:/DATASET/images/' + str(self.counter) + '.jpg'
            print('第'+str(self.counter)+'张图片:'+url)
            urllib.request.urlretrieve(url=url,filename=filename)
            self.counter+=1
            if(self.counter>102):#学号后三位是102，于是爬取102张图片
                break
        return item

输出结果：

心得和体会：

爬取天气网时，一开始使用正则表达式抓取图片的url，传输的数据类型在pipelines中下载的时候总是失败，即使用了循环，参数也还是一整个列表。于是转用xpath就便捷很多，可以使用xpath工具判断是否抓取成功。

爬取亚马逊网站时，在网页使用插件查找xpath是正确的图片的url，但是在本地运行时第一个元素和最后一个元素很奇怪
于是使用了pop函数去除这两个元素
在第一个代码里直接在循环中定义num在亚马逊网站中不可取，因为翻页过后会重新调用process_item函数，num又会从1开始计数。于是定义了self.counter进行计数。

作业②：

要求：

熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法；使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取股票相关信息。
候选网站：东方财富网：https://www.eastmoney.com/

输出信息：

MySQL数据库存储和输出格式如下：
表头英文命名例如：序号id，股票代码：bStockNo……，由同学们自行定义设计
序号股票代码股票名称最新报价涨跌幅涨跌额成交量振幅最高最低今开昨收
1 688093 N世华 28.47 10.92 26.13万 7.6亿 22.34 32.0 28.08 30.20 17.55
2……

代码：

MySpider.py

class MySpider(scrapy.Spider):
    name = 'MySpider'
    start_urls = []
    for i in range(1,3):
        url =f"http://45.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124030395806868839914_1696659472380&pn={i}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&wbp2u=|0|0|0|web&fid=f3&fs=m:0+t:6,m:0+t:80,m:1+t:2,m:1+t:23,m:0+t:81+s:2048&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1696659472381"
        start_urls.append(url)
    global num
    print("序号", "股票代码", "股票名称", "最新价", "涨跌幅", "涨跌额", "成交量", "成交额", "振幅", "最高", "最低", "今开", "昨收", chr(12288))
    def getContent(html):
        stocks = re.findall("\"diff\":\[(.*?)]", html)
        print(stocks)
        stocks = list(eval(stocks[0]))
        print(stocks)
        num = 0
        result = []
        for stock in stocks:
            num += 1
            daima = stock["f12"]
            name = stock["f14"]
            newprice = stock["f2"]
            diefu = stock["f3"]
            dieer = stock["f4"]
            chengjiaoliang = stock["f5"]
            chengjiaoer = stock["f6"]
            zhenfu = stock["f7"]
            max = stock["f15"]
            min = stock["f16"]
            today = stock["f17"]
            yesterday = stock["f18"]
            result.append(
                [num, daima, name, newprice, diefu, dieer, chengjiaoliang, chengjiaoer, zhenfu, max, min, today,
                 yesterday])
        #print(result)
        return result

    def parse(self, response):
        stockdb = Work2Pipeline()  # 创建数据库对象
        stockdb.openDB(MySpider)  # 开启数据库
        html = response.text
        stocks = MySpider.getContent(html)
        print(stocks)
        for stock in stocks:
            item = Work2Item()
            item['Num'] = stock[0]
            item['daima'] = stock[1]
            item['name']= stock[2]
            item['newprice']= stock[3]
            item['diefu']=stock[4]
            item['dieer']=stock[5]
            item['chengjiaoliang']=stock[6]
            item['chengjiaoer']=stock[7]
            item['zhenfu']=stock[8]
            item['max']=stock[9]
            item['min']=stock[10]
            item['today']=stock[11]
            item['yesterday']=stock[12]
            print(stock[0], stock[1], stock[2], stock[3], stock[4], stock[5], stock[6], stock[7], stock[8],stock[9], stock[10], stock[11], stock[12], chr(12288))
            stockdb.process_item(item,MySpider)
            yield item

pipelines.py

class Work2Pipeline:
    def openDB(self,spider):
        self.con = sqlite3.connect("stocks.db")
        self.cursor = self.con.cursor()
        try:
            self.cursor.execute("create table  if not exists stocks (Num varchar(16), stockCode varchar(16),stockName varchar(16),Newprice varchar(16),RiseFallpercent varchar(16),RiseFall varchar(16),Turnover varchar(16),Dealnum varchar(16),Amplitude varchar(16),max varchar(16),min varchar(16),today varchar(16),yesterday varchar(16))")
        except:
            self.cursor.execute("delete from stocks")
    def process_item(self, item, spider):#插入数据
        sql = "insert into stocks(Num,stockCode,stockName,Newprice,RiseFallpercent,RiseFall,Turnover,Dealnum,Amplitude,max,min,today,yesterday) values (?,?,?,?,?,?,?,?,?,?,?,?,?)"
        params=list()
        params.append(item['Num'])
        params.append(['daima'])
        params.append(item['name'])
        params.append(item['newprice'])
        params.append(item['diefu'])
        params.append(item['dieer'])
        params.append(item['chengjiaoliang'])
        params.append(item['chengjiaoer'])
        params.append(item['zhenfu'])
        params.append(item['max'])
        params.append(item['min'])
        params.append(item['today'])
        params.append(item['yesterday'])
        self.cursor.execute(sql,tuple(params))
        self.con.commit()
        return item

    def closeDB(self,spider):
        self.con.commit()
        self.con.close()

输出结果：

心得和体会：

这次试验和前一次做的差不多，因为网站是采用动态加载的，所以需要通过抓包获取资源。难点在于如何在scrapy框架下将数据存入数据库。
和前一次实验比较不一样的地方：
1、pipelines.py中定义创建数据库和关闭数据库的函数需要传入参数spider
2、process_item函数（其实就是插入数据）需要传入数据封装后的item和spider
一开始使用

sql = "insert into stocks(Num,stockCode,stockName,Newprice,RiseFallpercent,RiseFall,Turnover,Dealnum,Amplitude,max,min,today,yesterday) values (?,?,?,?,?,?,?,?,?,?,?,?,?)"
self.cursor.execute(sql % (item['Num'],item['daima'],item['name'],item['newprice'],item['diefu'],item['dieer'],item['chengjiaoliang'],item['chengjiaoer'],item['zhenfu'],item['max'],item['min'],item['today'],item['yesterday']))

会报错TypeError: not all arguments converted during string formatting
查询后是因为：%操作符只能直接用于字符串(‘123’)，列表([1,2,3])、元组。
于是将函数修改为：（需要注意params添加的顺序要和sql语句插入的顺序一致，否则会出现错位甚至插入失败的情况）

        sql = "insert into stocks(Num,stockCode,stockName,Newprice,RiseFallpercent,RiseFall,Turnover,Dealnum,Amplitude,max,min,today,yesterday) values (?,?,?,?,?,?,?,?,?,?,?,?,?)"
        params=list()
        params.append(item['Num'])
        params.append(['daima'])
        params.append(item['name'])
        params.append(item['newprice'])
        params.append(item['diefu'])
        params.append(item['dieer'])
        params.append(item['chengjiaoliang'])
        params.append(item['chengjiaoer'])
        params.append(item['zhenfu'])
        params.append(item['max'])
        params.append(item['min'])
        params.append(item['today'])
        params.append(item['yesterday'])
        self.cursor.execute(sql,tuple(params))
        self.con.commit()

就可以正确把数据插入数据库了。
一开始控制台经常没有输出，检查后发现parse函数都没有进入，其实可能是一些书写有问题，可以在run.py中将LOG_ENABLED=False设置为True，以便排查错误。parse函数里有任何错误都可能导致整个函数没有输出。

作业③：

要求：

熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法；使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取外汇网站数据。
候选网站：中国银行网：https://www.boc.cn/sourcedb/whpj/

输出信息：

Currency TBP CBP TSP CSP Time
阿联酋迪拉姆 198.58 192.31 199.98 206.59 11:27:14

代码：

MySpider.py

class MySpider(scrapy.Spider):
    name = 'MySpider'
    start_urls =["https://www.boc.cn/sourcedb/whpj/"]
    def parse(self, response):
        waihuidb = Work3Pipeline()  # 创建数据库对象
        waihuidb.openDB(MySpider)  # 开启数据库
        items = response.xpath('//tr[position()>1]')
        for i in items:
            item = Work3Item()
            item['Currency'] = i.xpath('.//td[1]/text()').get()
            item['TBP'] = i.xpath('.//td[2]/text()').get()
            item['CBP']= i.xpath('.//td[3]/text()').get()
            item['TSP']= i.xpath('.//td[4]/text()').get()
            item['CSP']=i.xpath('.//td[5]/text()').get()
            item['Time']=i.xpath('.//td[8]/text()').get()
            print(item)
            waihuidb.process_item(item,MySpider)
            yield item

pipelines.py

class Work3Pipeline:
    def openDB(self,spider):
        self.con = sqlite3.connect("waihui.db")
        self.cursor = self.con.cursor()
        try:
            self.cursor.execute("create table if not exists waihui (Currency varchar(16), TBP varchar(16),CBP varchar(16),TSP varchar(16),CSP varchar(16),Time varchar(16))")
        except:
            self.cursor.execute("delete from waihui")
    def process_item(self, item, spider):
        sql = "insert into waihui(Currency,TBP,CBP,TSP,CSP,Time) values (?,?,?,?,?,?)"
        params=list()
        params.append(item['Currency'])
        params.append(item['TBP'])
        params.append(item['CBP'])
        params.append(item['TSP'])
        params.append(item['CSP'])
        params.append(item['Time'])
        self.cursor.execute(sql,tuple(params))
        self.con.commit()
        return item

    def closeDB(self,spider):
        self.con.commit()
        self.con.close()

输出结果：

心得和体会：

本实验和第二个实验差不多，但是在这个实验里强化了xpath的使用，需要注意的是可以打开LOG_ENABLED，以免因为xpath写错而导致没有输出结果。

码云链接

posted @ 2023-10-25 15:43 yyiiing 阅读(45) 评论(0) 编辑收藏举报

刷新页面返回顶部

yyiiing

2023数据采集与融合技术实践第三次作业

作业①：

要求：

输出信息：

代码：

单线程

多线程

输出结果：

代码：

输出结果：

心得和体会：

作业②：

要求：

输出信息：

代码：

MySpider.py

pipelines.py

输出结果：

心得和体会：

作业③：

要求：

输出信息：

代码：

MySpider.py

pipelines.py

输出结果：

心得和体会：

码云链接

公告