数据采集综合设计

这个项目属于哪个课程	2024数据采集与融合技术实践
组名	从你的全世界爬过团队logo：
项目简介	项目名称：博物识植项目logo：项目介绍：在探索自然奥秘的旅途中，我们常与动植物相伴而行，却无法准确识别它们，更难以深入了解他们的特征。为了更好地理解和欣赏自然界的多样性，提升我们对动植物的认识和保护意识，我们需要一个智能系统。该系统能够根据用户拍摄的动植物照片，智能识别并匹配相应的信息，同时为用户提供丰富的学习资源，帮助人们更深入地了解和学习动植物知识。通过这样的方式，我们不仅能够更准确地识别和欣赏周围的生命，还能够在日常生活中，随时随地增长见识，体验探索自然的乐趣。项目背景：人类的生活离不开动植物的支持，动植物的多样性是一切地球生物的依赖。在生活中随处可见很多动植物，动植物是人类生活必不可少的一部分。保护大自然保护动植物就是在保护人类自己。在保护动植物的过程中，首先要解决的是动植物识别的问题。项目意义:提供了一种我们与自然界互动的方式。其应用场景广泛，渗透到了教育、旅游等多个领域。在学校，它可以是生物课程的辅助工具，通过实践学习生物多样性；在旅游行业，它可以帮助游客更好地了解他们所参观的自然景观，提升旅行体验
团队成员学号	042201401陈高菲、102202107王勤琛、102202108王露洁、102202115孙佳会、102202123张铭心、102202130林烨、102202138徐婉瑜、102202140郭心怡
项目目标	本系统旨在实现以下功能： a.图片识别功能：用户上传动植物图片，系统通过图像识别技术自动识别物种，返回准确的物种名称。 b.物种详细信息：识别后，用户将获取该物种的详细信息，包括外形特点、生长环境、分布区域等相关数据。 c.物种图片展示:系统将提供该物种的高质量图片，帮助用户更直观地了解物种特征。 d.名称搜索功能:用户可以手动输入动植物的名称，系统将返回该物种的相关信息，方便快速查询。 e.网站部署上线：通过华为云的弹性计算服务部署网站，确保系统高可用和稳定运行，实现网站上线。
其他参考文献	1.yanjingang/pigimgclassification: 图像分类 2.基于改进SE-MnasNet骨干网络YOLOv5的动植物树木识别系统_开源树木识别
gitee链接	2024学年数据采集与融合技术大作业——博物识植团队：从你的全世界爬过

一、系统总体技术概述

1.1 系统架构概述

系统分为前端、后端、数据库、AI接口、爬虫模块、部署等多个层级。前后端之间通过RESTful API进行通信。具体分为以下几个部分：

前端：使用HTML、CSS和JavaScript进行界面设计，实现用户与系统的交互。用户可以上传文本、图片等文件。
后端：使用Python语言和Flask框架实现，处理图像识别、查询请求、调用AI接口和爬虫数据存储等业务逻辑。
数据库：存储动植物物种的详细信息，包括图像、分布、特点等。存储物种识别的历史记录信息。
图像识别与AI接口：利用图像识别模型或调用第三方AI服务（如百度AI、Google Vision等）识别图片并返回结果。
爬虫：提前爬取动植物相关网站数据，补充物种数据库。使用Selenium框架进行实时图片爬取。
部署平台：使用华为云平台部署系统，保证系统的高可用和稳定性。

1.2 各模块技术实现

1.2.1 图像识别模块

目标：用户上传图片，系统通过图像识别技术返回物种名称。
技术方案：
使用深度学习模型：基于改进SE-MnasNet骨干网络YOLOv5和卷积神经网络cnn opencv进行图像分类和识别。
基于识别精确度的考虑调用第三方云服务百度智能云的动植物识别API提供快速而准确的图像识别。
流程：
用户上传图片，前端将图片通过API发送至后端。
后端调用模型或AI图像识别API分析图片，获取可能的物种标签。
后端将物种名称返回给前端，前端展示识别结果。

1.2.2 物种信息查询功能

目标：根据识别后的物种名称或用户输入的名称，返回该物种的详细信息。
技术方案：
利用selenium技术和scrapy框架爬取信息网站所有物种信息（如外形特点生长环境、分布区域等）存储在csv表导入数据库并定期更新。
利用查询语句在数据库中进行查找并返回详细信息。
若数据库中没有相关信息，则调用百度智能云的千帆大模型识别物种名称，查询物种相关信息。
流程：
后端识别出物种名称时，系统首先查询数据库，若没有该物种的信息，再调用AI接口获取。

1.2.3 相似图片展示

目标：根据用户上传的图片，返回物种的相似图片，帮助用户直观了解物种。
技术方案：
运用selenium爬虫技术实时爬取百度识图返回的相似图片
流程：
后端接收前端传入的图片后，将图片作为输入文件传入百度识图网站实时爬取相似图片，在系统返回物种详细信息时，将图片URL一并返回。

1.2.4 保存历史记录

目标：将用户的历史搜索记录保存至数据库，方便用户在“我的图鉴”页面查看并跳转至物种详情页，随时查看过去的搜索记录。
技术方案：
创建一个数据库表专门用来保存用户的搜索记录，包括用户上传的图片、识别出来的物种名称、物种的详细信息（如描述、分布、图片URL等）
流程：
当用户获取识别结果时，后端系统会将物种信息保存至数据库中。在点击我的图鉴中的物种名称时，后端调取数据库信息展示在前端界面。

1.2.5 部署与部署架构

目标：将整个系统部署到华为云服务器上，让非本地用户可以访问。
技术方案：
使用华为云ECS（Elastic Cloud Server）部署后端服务。
使用华为云OBS 存储图片等静态资源。
使用RDS（Relational Database Service）存储物种信息数据库。
前端可以使用 Nginx 进行负载均衡和反向代理
流程：
前后端文件上传部署完成后即可实现非本地用户的访问。

1.3 源码运行步骤

gitee仓库下载源码
启动文件中的ai.py与database.py文件
运行index.html文件
（！注意在本地主机运行代码时请更换代码中的路径名）

二、个人分工

在该实践作业中，我与郭心怡同学一同负责数据的爬取工作，我负责植物库的爬取。另外我还负责服务器的部署工作。数据爬取较为简单，与平时作业差不多，只是数据量庞大，爬虫程序运行的时间较长。服务器的部署与之前的华为云部署实验不同，这个没有教程，网上的资料也比较少，我只能自己摸索。
以下是爬取植物库的部分关键代码。根据植物库的网页结构，我先爬取了所有植物页面的链接，存储到csv文件当中。然后从csv文件当中读取链接，打开链接后，再从二级链接当中爬取所有信息。

我还做了部署服务器的工作。以下是我部署的云服务器的基本信息。

我购买的云主机较为便宜，因为之前的华为云实验我花了过多的代金券，导致我这次大作业很担心欠费，于是矫枉过正过于抠搜了，目前比较担心演示的时候访问的人数较多导致服务器崩溃。
这相当与重新配置一个空的电脑，根据之前华为云实验的经验，我用putty和Winscp连接ecs，由于我的电脑是windows系统，一开始不太熟练linux的命令操作以及只能用命令行来操作。我先下载了131版本的chrome浏览器并配置了对应版本的chromedriver。

然后配置了5.7版本的mysql，这一步一直报错，经过查询资料发现是因为我购买的ecs用的是Euler，导致很多依赖版本不兼容，我在putty上设置了忽略所有warning信息，然后寻找了合适的版本，配置成功了。下一步下载我们的项目所需要的所有包，配置好对应的python环境。
接着上传我们项目的代码并把所有的localhost改成了弹性ip的地址，在华为云上设置安全组开放对应的端口，在putty中用命令行设置监听。代码中设置后端使用了5001和8000的端口，我又给前端设置了80端口来访问。这一步我踩了很多雷，由于我对代码结构理解的欠缺，我一开始只给后端开放了端口，导致我无法访问，我一直以为是代码的路由问题。后来与张铭心讨论后了解到我们的代码是前后端分离的，我应该再单独给前端开设一个端口。我先是开放了7000端口给前端，但是发现无法用浏览器运行，命令行却可以ping通，用curl也可以访问以及云主机可以通过localhost访问，明明防火墙已经关闭并且安全组全部放开，bind也设置为0.0.0.0，最后实在是排查不出问题于是我换了http的默认80端口，就成功了。

为了便于大家访问，flask服务需要长期开启，我查询资料后了解到把服务设置为 Systemd 守护进程的方法较为适合，这个方法适合长期运行的服务，会在服务器启动时自动运行。于是我在系统中为每一个端口都写了service文件，并运行，设置为ecs开机自启，不受我的putty开关机的影响。

成功后我测试功能是发现无法保存搜索内容到图鉴当中，根据报错信息发现是我在云主机当中设置的数据库表与原代码的不一样，我修改了字段为longtext就成功了
心得体会：爬取数据较为简单，平时作业积累的足够的经验来应对作业，只是爬虫花费的时间较长。而部署云服务器虽然我描述得很简单，但是配置各种环境是很耗费心力的一件事，需要查询各种资料，适应与平时不同的操作系统以及putty和Winscp。很多命令都是网上查了之后在putty中输入，再去putty的响应是什么意思，不同于平时图形化的软件，命令行的操作较为原始难懂。特别是明明什么都搞好了但是就是访问不了的时候比较让人无从下手。在这过程中我也熟能生巧了，之前做华为云实验有一种恐惧心理，这次大作业做完后我大概再也不会担心此