深度学习之垃圾分类系统(准确率高达近99%)
垃圾分类收集处理,能提高资源化利用程度。 在垃圾成分中,其中的金属、纸类、塑料、玻璃等是可直接回收利用的资源,回收利用率高,较之开发自然资源有着处理简单、成本低廉、污染小的优势。
说明:
自笔者于2019年8月发出了深度学习实战之垃圾分类博文以来,已被访问上万次,几百次的收藏。同时也有很多的人询问笔者关于这个项目的问题。在这里非常的感谢大家的厚爱。其实很早就想再迭代一个垃圾分类项目出来,但是由于之前比较的忙,一直没有时间将其落实。最近没什么事情,笔者花了一些时间又重新做了一个垃圾分类系统。希望对大家学习研究有所帮助。说干就干,接下来,笔者就详细的介绍一下这个项目。
宣传:
最近笔者又做了一个目标检测版本的垃圾分类识别系统垃圾分类识别系统(目标检测版),欢迎围观……
思路:
在这里,笔者的大体思路是首先通过python对垃圾数据进行训练,然后再通过使用java web端的SpringMVC进行结合 ,进而达到前后端分离的设计效果。
开发环境:
笔者的开发环境如下:
- Java部分:
TomCat
IDEA
maven - Python部分:
python3.6+
torch1.0+
anaconda
训练:
- 垃圾数据收集
关于垃圾数据的收集,笔者主要是通过采用网络爬虫的方式
这里笔者写了一个网络爬虫:
import re
import requests
from urllib import error
from bs4 import BeautifulSoup
import os
num = 0
numPicture = 0
file = ''
List = []
def Find(url):
global List
print('正在检测图片总数,请稍等.....')
t = 0
i = 1
s = 0
while t < 1000:
Url = url + str(t)
try:
Result = requests.get(Url, timeout=7)
except BaseException:
t = t + 60
continue
else:
result = Result.text
pic_url = re.findall('"objURL":"(.*?)",', result, re.S) # 先利用正则表达式找到图片url
s += len(pic_url)
if len(pic_url) == 0:
break
else:
List.append(pic_url)
t = t + 60
return s
def recommend(url):
Re = []
try:
html = requests.get(url)
except error.HTTPError as e:
return
else:
html.encoding = 'utf-8'
bsObj = BeautifulSoup(html.text, 'html.parser')
div = bsObj.find('div', id='topRS')
if div is not None:
listA = div.findAll('a')
for i in listA:
if i is not None:
Re.append(i.get_text())
return Re
def dowmloadPicture(html, keyword):
global num
# t =0微观
pic_url = re.findall('"objURL":"(.*?)",', html, re.S) # 先利用正则表达式找到图片url
print('找到关键词:' + keyword + '的图片,即将开始下载图片...')
for each in pic_url:
print('正在下载第' + str(num + 1) + '张图片,图片地址:' + str(each))
try:
if each is not None:
pic = requests.get(each, timeout=7)
else:
continue
except BaseException:
print('错误,当前图片无法下载')
continue
else:
string = file + r'\\' + keyword + '_' + str(num) + '.jpg'
fp = open(string, 'wb')
fp.write(pic.content)
fp.close()
num += 1
if num >= numPicture:
return
if __name__ == '__main__': # 主函数入口
tm = int(input('请输入每类图片的下载数量 '))
numPicture = tm
line_list = []
with open('./name.txt', encoding='utf-8') as file:
line_list = [k.strip() for k in file.readlines()] # 用 strip()移除末尾的空格
for word in line_list:
url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&pn='
tot = Find(url)
Recommend = recommend(url) # 记录相关推荐
print('经过检测%s类图片共有%d张' % (word, tot))
file = word
y = os.path.exists(file)
if y == 1:
print('该文件已存在,请重新输入')
file = word
os.mkdir(file)
else:
os.mkdir(file)
t = 0
tmp = url
while t < numPicture:
try:
url = tmp + str(t)
result = requests.get(url, timeout=10)
print(url)
except error.HTTPError as e:
print('网络错误,请调整网络后重试')
t = t + 60
else:
dowmloadPicture(result.text, word)
t = t + 60
numPicture = numPicture + tm
print('任务完成')
-
数据处理:
通过上述的方式获取到的数据,当然有些是无效的数据,需要通过数据清洗将一些脏数据去除。这里笔者是对初步处理完的数据又进行了人为方式的数据清洗(这里采用的方式有些笨,数据集见文末) -
训练数据:
笔者通过使用深度神经网络的方式对收集到的垃圾数据集进行训练,进而获得高准确率的模型。
训练过程如下:
训练于23:00开始进行训练,这里epoch设置的为10,于23:30的样子训练结束。大家可以根据自己数据集的和准确率的要求,自行调整。
可以看到训练时的准确率可以达到近99%,测试准确率达到近98%,模型的效果还是很不错的。
搭建Java
- 打开IDEA搭建一个maven项目
详细搭建过程,可以自行百度,网上介绍的很详细,这里笔者就不再赘述了…… - 前端部分
这里由于笔者并没有系统的学习过前端开发,所以前端代码写的不能同专业的前端程序员进行比较。
前端有五个界面:初始化界面以及其他的四个识别界面。
Java、Python相结合:
在进行这个部分结合的过程时,笔者是真的是被搞得有些蒙圈。因为二者都是高级语言,所以在语言间跨度上有些不匹配,各种鬼畜问题,一个接着一个报出。
- Java、python语言间跨度上关键部分
@RequestMapping("/upload")
public String fileUpload(@RequestParam("file") CommonsMultipartFile file,
HttpServletResponse response,
HttpServletRequest request, Model model) throws IOException,InterruptedException {
//上传路径保存设置getServletContext
String path=request.getServletContext().getRealPath("/upload");
//获取文件名 : file.getOriginalFilename();
String uploadFileName = file.getOriginalFilename();
//如果文件名为空,直接回到首页
if ("".equals(uploadFileName)){
return "redirect:/index.jsp";
}
System.out.println("上传文件名 : "+uploadFileName);
//如果路径不存在,创建一个
File realPath = new File("E:/Java_project/garbage/src/main/Detection/test");
if (!realPath.exists()){
realPath.mkdir();
}
// 将文件名传到前端,由${filename}方式获取
model.addAttribute("filename",uploadFileName);
System.out.println("上传文件保存地址:"+realPath);
InputStream is = file.getInputStream(); //文件输入流
OutputStream os = new FileOutputStream(new File(realPath,uploadFileName)); //文件输出流
//读取写出
int len=0;
byte[] buffer = new byte[1024];
while ((len=is.read(buffer))!=-1){
os.write(buffer,0,len);
os.flush();
}
os.close();
is.close();
/*python--->java core code*/
Process proc;
try{
String str="./test/";
proc = Runtime.getRuntime().exec("python Test_model.py "+str+uploadFileName,
null,new File("E:/Java_project/garbage/src/main/Detection"));
BufferedReader in = new BufferedReader(new InputStreamReader(proc.getInputStream()));
StringBuffer sb = new StringBuffer();
String line;
while ((line = in.readLine()) != null) {
sb.append(line);
}
in.close();
proc.waitFor();
sb.toString();
/*detect time limit*/
Timer timer=startTimer();
Thread.sleep(1000*30);
System.out.println("End time:"+getCurrentTime());
timer.cancel();
/*detect time limit*/
/*Test code*/
}catch (IOException e){
e.printStackTrace();
}catch (InterruptedException e){
e.printStackTrace();
}
最终结果:
完成了上述工作,整个项目也就完结了,接下来,演示一下。
-
初始化界面:
-
选择图片进行识别:
-
开始检测:
由于模型检测需要一定的时间,所以需要设置一个缓冲时间再进行页面跳转
-
识别结果:
项目源码:
项目源码
链接:https://pan.baidu.com/s/1AthsXo8UcvW1Mni06yW-0w
提取码:jik8
总结:
到此,新版本的垃圾分类识别系统就算完成了。
由于笔者知识能力有限,在描述上可能存在不准确的地方,还请谅解。
如遇到什么问题欢迎添加笔者qq:1017190168
进行讨论。